JP2007264858A - Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method - Google Patents

Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method Download PDF

Info

Publication number
JP2007264858A
JP2007264858A JP2006086831A JP2006086831A JP2007264858A JP 2007264858 A JP2007264858 A JP 2007264858A JP 2006086831 A JP2006086831 A JP 2006086831A JP 2006086831 A JP2006086831 A JP 2006086831A JP 2007264858 A JP2007264858 A JP 2007264858A
Authority
JP
Japan
Prior art keywords
gender
name
determination
machine translation
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006086831A
Other languages
Japanese (ja)
Inventor
Masahiro Asaoka
正洋 麻岡
Manabu Satsusano
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006086831A priority Critical patent/JP2007264858A/en
Publication of JP2007264858A publication Critical patent/JP2007264858A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a new technique that can select appropriate pronouns required in machine translation by enabling determination of sexuality of personal names consisting only of family names, and various personal names included in sentences. <P>SOLUTION: Sexuality of personal names are basically determined in view of context information about the personal names. Further, sexuality of personal names are determined in consideration of the notation of the personal names. Sexuality of personal names are also in consideration of the sexualization of similar personal names included in a set of sentences where the same personal name may appear. The processing can determine sexuality even for personal names that cannot be uniquely determine sexuality, and can determine sexuality even personal names consisting only of family names. The sexuality determination can be implemented without a comprehensive personal name sex dictionary. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、処理対象となる文章に含まれる人名の性別を判定する人名性別判定装置およびその処理方法と、その人名性別判定装置の実現に用いられる人名性別判定プログラムと、その人名性別判定技術を利用して機械翻訳を行う機械翻訳装置およびその処理方法と、その機械翻訳装置の実現に用いられる機械翻訳プログラムとに関する。   The present invention relates to a personality gender determination device that determines the gender of a personal name included in a sentence to be processed, a processing method thereof, a personality gender determination program used for realizing the personality gender determination device, and a personality gender determination technique thereof. The present invention relates to a machine translation apparatus that performs machine translation using the machine translation method, a processing method thereof, and a machine translation program used to realize the machine translation apparatus.

機械翻訳において、適切な代名詞を選択することは重要なことである。特に、日英機械翻訳においては、日本語にはない代名詞を補ったり、固有名詞(人名)で記述されたものを代名詞に変換する必要がある。   In machine translation, it is important to select an appropriate pronoun. In particular, in Japanese-English machine translation, it is necessary to supplement pronouns that are not found in Japanese or to convert pronouns that are described with proper names (person names) into pronouns.

そのためには、各人名の性別情報が必要であるが、現在の機械翻訳では、ごく限られた典型的な人名のみについて性別情報を与えているというのが実情であり、幅広い人名について性別情報を与えることは実現されていない。   To that end, gender information for each person's name is required, but in the current machine translation, gender information is given only for a very limited number of typical names. Giving has not been realized.

下記に示す特許文献1には、機械翻訳を行うときに、その翻訳文中の人に係る固有名詞及び普通名詞を辞書部の情報に基づいて検索を行うことで、それらの名詞の性別を特定するという発明が記載されているが、辞書部の情報には限りがあり、人に係る固有名詞及び普通名詞を網羅できないことから、実際には幅広い人名について性別情報を与えることは実現されていないのが実情である。   In Patent Document 1 shown below, when performing machine translation, the proper nouns and common nouns related to people in the translated sentence are searched based on the information in the dictionary part to identify the gender of those nouns. However, because the information in the dictionary is limited and cannot cover proper nouns and common nouns related to people, it is not actually possible to provide gender information for a wide range of personal names. Is the actual situation.

これから、従来技術に従っていると、機械翻訳を実行する場合に、適切な代名詞を選択することができなかった。   From now on, according to the prior art, it is not possible to select an appropriate pronoun when executing machine translation.

なお、本発明に関連する技術として、下記に示す特許文献2には、アルファベット表記の固有名詞をニューラルネットを用いて対応する中国語漢字の固有名詞に変換するという発明が記載されており、さらに、この発明では、アルファベット表記の固有名詞にMiss というような女性名であることを示すフラグが付いている場合には、ニューラルネットの入力層に設けられる女性名に反応するユニットに従って、女性にふさわしい中国語漢字の固有名詞に変換するという構成を採っている。
特開昭62−269264号公報 特開平5−324718号公報
In addition, as a technique related to the present invention, Patent Document 2 shown below describes an invention in which a proper noun expressed in alphabet is converted into a corresponding proper Chinese kanji proper noun using a neural network. In this invention, when the proper noun of the alphabet notation has a flag indicating a female name such as Miss, it is suitable for a woman according to a unit responding to the female name provided in the input layer of the neural network. It adopts the structure of converting to proper nouns of Chinese kanji.
Japanese Patent Laid-Open No. 62-269264 JP-A-5-324718

日英機械翻訳において適切な代名詞を選択するためには、日本語の各人名の性別情報が必要であり、その解決策として、特許文献1に記載されるように人名性別の辞書を用意するという方法を用いることが考えられる。   In order to select an appropriate pronoun in Japanese-English machine translation, the gender information of each person's name in Japanese is required, and as a solution, a dictionary for person name and gender is prepared as described in Patent Document 1. It is conceivable to use a method.

しかしながら、人名性別の辞書を用意することで人名の性別を判定するという方法を用いていたのでは、実際には人名の性別を判定することを実現できない。   However, using the method of determining the gender of a person name by preparing a personality gender dictionary cannot actually determine the gender of the person name.

すなわち、外国人名も含めて全ての人名について網羅的に記述する辞書を作成することは事実上困難である。さらに、性別を一意に決められない人名もあり、しかも、姓のみの人名では性別を全く決められないことから、人名性別の辞書だけに頼っていたのでは、実際には人名の性別を判定することを実現できないのである。   That is, it is practically difficult to create a dictionary that comprehensively describes all names including foreign names. In addition, there are names that cannot uniquely determine the gender, and because the name of the surname alone cannot determine the gender at all, relying solely on the personal name gender dictionary actually determines the gender of the name It cannot be realized.

本発明はかかる事情に鑑みてなされたものであって、文章に含まれる姓のみの人名や幅広い人名について、その性別を判定できるようにすることで、機械翻訳の際に必要となる適切な代名詞の選択を実現できるようにする新たな技術の提供を目的とする。   The present invention has been made in view of such circumstances, and it is possible to determine the gender of a personal name with only a surname or a wide range of personal names included in a sentence, and an appropriate pronoun required for machine translation. The purpose is to provide a new technology that makes it possible to realize this selection.

〔1〕本発明の人名性別判定装置の構成
本発明の人名性別判定プログラムを実装する本発明の人名性別判定装置は、処理対象となる文章に含まれる人名の性別を判定するという処理を行うことで、機械翻訳の際に必要となる適切な代名詞の選択を実現できるようにするために、(イ)判定対象となる人名の周囲にある文脈情報を抽出したり、判定対象となる人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、(ロ)抽出手段の抽出した情報に基づいて、判定対象となる人名の性別を判定する判定手段と、(ハ)処理対象となる文章に含まれる類似する人名について、判定手段により判定された性別の情報を比較して、その比較結果に基づいて、その判定された性別の情報を修正する修正手段とを備えるように構成する。
[1] Configuration of personality gender determination apparatus of the present invention The personality gender determination apparatus of the present invention that implements the personality gender determination program of the present invention performs a process of determining the gender of a personal name included in a sentence to be processed. In order to enable selection of appropriate pronouns required for machine translation, (a) extracting context information around the person name to be judged, or surrounding the person name to be judged (B) a determination means for determining the gender of a person name to be determined based on the information extracted by the extraction means, and (c) a processing target. Comparing the information on the gender determined by the determination unit for similar names included in the sentence, and a correction unit for correcting the determined gender information based on the comparison result.

以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。   Each of the above processing means can also be realized by a computer program. This computer program is provided by being recorded on an appropriate computer-readable recording medium or provided via a network, and is used when implementing the present invention. The present invention is realized by being installed and operating on a control means such as a CPU.

このように構成される本発明の人名性別判定装置では、処理対象となる文章に含まれる人名の周囲にある文脈情報を利用して、その人名の性別を判定することを基本にして、これに加えて、その人名の表記を考慮してその人名の性別を判定したり、処理対象となる文章に含まれる類似人名についての性別の情報を考慮してその人名の性別を判定するように処理する。   The personality gender determination apparatus of the present invention configured as described above is based on determining the gender of the personal name using context information around the personal name included in the sentence to be processed. In addition, the gender of the person's name is determined in consideration of the notation of the person's name, or the gender of the person's name is determined in consideration of gender information about similar person names included in the sentence to be processed. .

〔2〕本発明の機械翻訳装置の構成
本発明の機械翻訳プログラムを実装する本発明の機械翻訳装置は、機械翻訳の際に必要となる適切な代名詞の選択を実現できるようにするために、(イ)機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報を抽出したり、その人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、(ロ)抽出手段の抽出した情報に基づいて、機械翻訳の対象となる文章に含まれる人名の性別を判定する判定手段と、(ハ)機械翻訳の対象となる文章に含まれる類似する人名について、判定手段により判定された性別の情報を比較して、その比較結果に基づいて、その判定された性別の情報を修正する修正手段と、(ニ)判定手段の判定した性別の情報(修正手段がその性別の情報を修正する場合には、その修正された性別の情報)に基づいて、機械翻訳の際に必要となる代名詞の選択を行う選択手段とを備えるように構成する。
[2] Configuration of the machine translation apparatus of the present invention The machine translation apparatus of the present invention that implements the machine translation program of the present invention can realize selection of an appropriate pronoun necessary for machine translation. (A) Using the gender of a person's name contained in a sentence subject to machine translation as a processing target, extract the context information around that person's name, or extract the context information around that person's name and the notation of that person's name Extraction means, (b) determination means for determining the gender of a person name included in a sentence to be machine-translated based on information extracted by the extraction means, and (c) included in a sentence to be machine-translated For similar person names, the sex information determined by the determining means is compared, and based on the comparison result, the correcting means for correcting the determined sex information, and (d) the sex determined by the determining means Information When the correct means corrects the sex information, the correct means includes selection means for selecting pronouns necessary for machine translation based on the corrected sex information.

以上の各処理手段はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。   Each of the above processing means can also be realized by a computer program. This computer program is provided by being recorded on an appropriate computer-readable recording medium or provided via a network, and is used when implementing the present invention. The present invention is realized by being installed and operating on a control means such as a CPU.

このように構成される本発明の機械翻訳装置では、機械翻訳の対象となる文章に含まれる人名の周囲にある文脈情報を利用して、その人名の性別を判定することを基本にして、これに加えて、その人名の表記を考慮してその人名の性別を判定したり、機械翻訳の対象となる文章に含まれる類似人名についての性別の情報を考慮してその人名の性別を判定して、その判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行うように処理する。   The machine translation apparatus of the present invention configured as described above is based on determining the gender of the person name using context information around the person name included in the sentence to be machine translated. In addition, the gender of the person's name is determined in consideration of the notation of the person's name, or the gender of the person's name is determined in consideration of the gender information about the similar person name included in the sentences subject to machine translation. Then, based on the determined gender, processing is performed so that pronouns necessary for machine translation are selected.

本発明では、人名の周囲にある文脈情報を利用して、その人名の性別を判定することを基本にして、これに加えて、その人名の表記を考慮してその人名の性別を判定したり、同一の人名が出現する可能性のあるひとつのまとまりとなる文章に含まれる類似人名についての性別の判定結果を考慮してその人名の性別を判定するように処理することから、性別を一意に決められない人名についても性別を判定できるようになるとともに、姓のみの人名についても性別を判定できるようになり、しかも、網羅的な人名性別辞書を用意することなく、性別の判定を実現できるようになる。   In the present invention, based on determining the gender of the person name using the context information around the person name, in addition to this, the gender of the person name can be determined in consideration of the notation of the person name. , The gender of the person name is determined in consideration of the gender judgment result of similar person names included in a single sentence where the same person name may appear. Gender can be determined even for names that cannot be determined, gender can also be determined for names with only surnames, and gender can be determined without preparing a comprehensive personality gender dictionary. become.

これから、本発明によれば、網羅的な人名性別情報を用意することなく、幅広い人名について、機械翻訳の際に必要となる適切な代名詞の選択を実現できるようになる。   Thus, according to the present invention, it is possible to realize selection of appropriate pronouns required for machine translation for a wide range of personal names without preparing comprehensive personal gender information.

以下、実施の形態に従って本発明を詳細に説明する。   Hereinafter, the present invention will be described in detail according to embodiments.

図1に、本発明を具備する機械翻訳装置1の一実施形態例を図示する。   FIG. 1 illustrates an embodiment of a machine translation apparatus 1 including the present invention.

この図に示すように、本発明の機械翻訳装置1は、ファイルやキーボードから機械翻訳の対象となる文章を入力する入力部10と、入力部10の入力した文章に含まれる人名部分を認識して、その人名部分にタグなどを付けた形で出力する固有名詞認識部11と、固有名詞認識部11の認識した人名の性別を判定する人名性別判定部12と、人名性別判定部12の判定結果に基づいて、入力部10の入力した文章を機械翻訳する機械翻訳部13と、機械翻訳部13の翻訳結果を出力する出力部14とを備える。   As shown in this figure, the machine translation apparatus 1 of the present invention recognizes an input unit 10 for inputting a sentence to be machine-translated from a file or a keyboard, and a personal name part included in the sentence input by the input unit 10. In addition, the proper noun recognition unit 11 that outputs the personal name portion with a tag or the like, the personal gender determination unit 12 that determines the gender of the personal name recognized by the proper noun recognition unit 11, and the determination of the personal gender determination unit 12 Based on the result, a machine translation unit 13 that machine translates a sentence input by the input unit 10 and an output unit 14 that outputs a translation result of the machine translation unit 13 are provided.

ここで、固有名詞認識部11については、従来の固有名詞認識システムをそのまま流用することが可能である。   Here, for the proper noun recognition unit 11, a conventional proper noun recognition system can be used as it is.

この人名性別判定部12は、固有名詞認識部11の認識した人名の性別を判定する処理を行うために、判定規則記憶部120と、人名性別辞書121と、前処理部122と、性別判定部123と、性別確定部124と、性別情報付与部125とを備える。   The personality gender determination unit 12 performs a process of determining the gender of the personal name recognized by the proper noun recognition unit 11, a determination rule storage unit 120, a personality gender dictionary 121, a preprocessing unit 122, and a gender determination unit. 123, a gender determination unit 124, and a gender information adding unit 125.

判定規則記憶部120は、人名の周囲にある文脈情報とその人名の性別との間に成立する関係である、こういう文脈情報がある場合にはその人名の性別はこうであるという関係について記述するとともに、その関係の確信度について記述する判定規則を保存する。この判定規則は、例えば、人名の周囲にある文脈情報をノードとし、その人名の性別をリーフとする決定木で構成される。   The determination rule storage unit 120 describes a relationship that is established between the context information around the name of the person and the gender of the person name, and when there is such context information, the gender of the person name is as follows. At the same time, a determination rule that describes the certainty of the relationship is stored. This determination rule is composed of, for example, a decision tree having context information around a person name as a node and the gender of the person name as a leaf.

図2に、このような決定木で構成される判定規則の一例を図示する。   FIG. 2 illustrates an example of a determination rule composed of such a decision tree.

この図では、「人名の2つ前の形態素の表記が『名詞の“妹”』で、人名の1つ前の形態素の表記が『助詞の“の”』であれば、その人名の性別は女性で、その確信度は“1.0”である」とか、「人名の2つ前の形態素の表記が『名詞の“父”』で、人名の1つ前の形態素の表記が『記号の“・”』であれば、その人名の性別は男性で、その確信度は“1.0”である」とか、「人名の1つ後の形態素の表記が『助詞の“の”』で、人名の2つ後の形態素の表記が『名詞の“妻”』であれば、その人名の性別は男性で、その確信度は“1.0”である」というような判定規則を一例として示している。   In this figure, if the notation of the morpheme before the name of the person is “noun“ sister ”” and the notation of the morpheme before the name of the person is “no” of the particle, the gender of the name is For women, the degree of certainty is “1.0”, or “the morpheme in front of the person ’s name is“ Father ”” and the morpheme in front of the person ’s name is “ If it is “・” ”, the gender of the person's name is male and the certainty is“ 1.0 ”” or “the morpheme notation after the person ’s name is“ Noun ”in the particle, If the morpheme notation after the name of the person is “noun“ wife ””, the gender of the name is male and the certainty is “1.0” as an example. ing.

人名性別辞書121は、人名の表記に対応付けて、その人名の性別の情報を記述するとともに、その関係の確信度について記述する辞書データを管理する。   The personal name gender dictionary 121 describes gender information of the personal name in association with the notation of the personal name and manages dictionary data describing the certainty of the relationship.

図3に、人名性別辞書121の管理する辞書データの一例を図示する。   FIG. 3 shows an example of dictionary data managed by the personality gender dictionary 121.

この図では、「“太郎”という人名表記を持つ場合には、その人名の性別は男性で、その確信度は“1.0”である」とか、「“郎”という人名表記を持つ場合には、その人名の性別は男性で、その確信度は“0.8”である」とか、「“亜希子”という人名表記を持つ場合には、その人名の性別は女性で、その確信度は“1.0”である」とか、「“子”という人名表記を持つ場合には、その人名の性別は女性で、その確信度は“0.5”である」というような辞書データを一例として示している。   In this figure, “If you have a personal name notation of“ Taro ”, the gender of the personal name is male and the certainty is“ 1.0 ”” or “If you have a personal name notation of“ Taro ” If the person ’s gender is male and the confidence is “0.8”, or “the name is“ Akiko, ”the person ’s gender is female and the confidence is“ For example, dictionary data such as “1.0” ”or“ if the name of the child is “child” has a gender of female name and the certainty is “0.5”. ” Show.

ここで、本発明の機械翻訳装置1では、判定規則記憶部120の保存する判定規則を使って人名の性別を判定する処理を行うので、この人名性別辞書121については、膨大な数の人名について網羅的に辞書データを用意する必要はない。   Here, in the machine translation apparatus 1 according to the present invention, the determination process of the personal name is performed using the determination rule stored in the determination rule storage unit 120. It is not necessary to prepare dictionary data comprehensively.

前処理部122は、人名の性別判定の前処理として、人名のタグ付けをされた入力部10の入力した文章を記事に分割するとともに、それらの記事の文章について形態素解析を実行する。   The preprocessing unit 122 divides the text input by the input unit 10 tagged with the personal name into articles as preprocessing for gender determination of personal names, and executes morphological analysis on the texts of those articles.

この記事の分割処理では、入力部10の入力した文章をひとつのまとまった文章単位である記事(同一の人名が出現する可能性のあるひとつのまとまった文章単位となるもの)に分割する処理を行うものであり、予め決められた記事のフォーマット(例えば、ひとつの記事は表題を持つというようなフォーマット)に従って記事に分割したり、ユーザからの指示に従って記事に分割したり、段落などの形式を利用して記事に分割する。   In this article dividing process, a process of dividing a sentence input by the input unit 10 into an article that is a single sentence unit (a single sentence unit in which the same person name may appear). Divided into articles according to a pre-determined article format (for example, one article has a title), divided into articles according to instructions from the user, etc. Use to divide into articles.

また、この形態素の解析処理では、記事に分割した文章を前後の文脈の単位となる形態素に分割するとともに、それらの分割した各形態素の品詞などの情報を解析する処理を行うものである。ここで、この形態素解析処理については、従来の形態素解析システムをそのまま流用することが可能である。   In this morpheme analysis process, a sentence divided into articles is divided into morphemes that are the units of the preceding and following contexts, and information such as part of speech of each divided morpheme is analyzed. Here, for this morpheme analysis processing, a conventional morpheme analysis system can be used as it is.

性別判定部123は、前処理部122の分割した記事に記載されている固有名詞認識部11の認識した人名を判定対象として、判定規則記憶部120の保存する判定規則と、人名性別辞書121の管理する辞書データとを参照しつつ、その人名の周囲の文脈情報やその人名の表記に基づいて、その人名の性別を判定する。   The gender determination unit 123 sets the person name recognized by the proper noun recognition unit 11 described in the article divided by the preprocessing unit 122 as a determination target, the determination rule stored in the determination rule storage unit 120, and the personal name gender dictionary 121. The gender of the person name is determined based on the context information around the person name and the notation of the person name while referring to the dictionary data to be managed.

性別確定部124は、記事内に記載されている各人名についての性別判定部123の判定結果について、その記事内に記載されている類似する人名の性別の判定結果と比較して、それに基づいて、性別判定部123の判定結果をそのまま確定させるか、性別判定部123の判定した性別を逆に修正する形で確定させる。   The gender determination unit 124 compares the determination result of the gender determination unit 123 for each person name described in the article with the determination result of the gender of a similar person name described in the article, based on the result Then, the determination result of the gender determination unit 123 is fixed as it is, or the gender determined by the gender determination unit 123 is fixed in reverse.

性別情報付与部125は、記事内に記載されている各人名に対して、性別確定部124の確定した性別情報を付与する。この付与の方法としては、固有名詞認識部11が付与したタグを性別を表すものに書き換えることなどにより行う。   The gender information adding unit 125 adds the gender information determined by the gender determining unit 124 to each person name described in the article. As a method for this assignment, the tag assigned by the proper noun recognizing unit 11 is rewritten with a tag representing gender.

このように構成される人名性別判定部12では、入力部10の入力した文章を記事に分割して、その記事を単位にして、固有名詞認識部11の認識した人名について、その人名の周囲の文脈情報やその人名の表記に基づいて、その人名の性別を判定するという処理を行う。   In the personality gender determination unit 12 configured as described above, the sentence input by the input unit 10 is divided into articles, and for each person name recognized by the proper noun recognition unit 11 in units of the article, Based on the context information and the notation of the person's name, a process of determining the gender of the person's name is performed.

この人名の性別の判定結果を受けて、機械翻訳部13は、人名性別判定部12の付与した人名の性別情報を利用することで適切な代名詞を選択しつつ、入力部10の入力した文章を機械翻訳する。   In response to the determination result of the gender of the personal name, the machine translation unit 13 selects the appropriate pronoun by using the gender information of the personal name given by the personal name gender determination unit 12 and reads the sentence input by the input unit 10. Machine translation.

従来の日英の機械翻訳では、固有名詞に性別情報が与えられていないことから、「亜希子は右手を振った」という文章を翻訳する場合、「亜希子は(自分の)右手を振った」という意味に解釈して、「Akiko shook one's right hand 」となるが、「one's 」の代名詞を選択できないために、「Akiko shook my right hand」や、「Akiko shook the right hand 」や、「Akiko shook his right hand 」というように翻訳してしまうという不都合があった。   In traditional Japanese-English machine translation, gender information is not given to proper nouns, so when translating the sentence "Akiko shook his right hand", "Akiko shook his right hand" Interpret it to meaning "Akiko shook one's right hand", but because you cannot select the pronoun of "one's", "Akiko shook my right hand", "Akiko shook the right hand", "Akiko shook his" There was the inconvenience of translating to "right hand".

これに対して、本発明では、固有名詞「亜希子」に女性という性別情報が与えられているので、機械翻訳部13は、この場合、「my」や「his」ではなくて、正確な「her」という代名詞を選択することができるようになることで、「Akiko shook her right hand 」というように正確に翻訳を行うことができるようになる。   In contrast, in the present invention, since the proper noun “Akiko” is given gender information of female, the machine translation unit 13 does not use “my” or “his” in this case, but the exact “her”. The pronoun "" can be selected, so that it can be accurately translated as "Akiko shook her right hand".

図4に、人名性別判定部12の実行する処理フローの一例を図示する。   FIG. 4 illustrates an example of a processing flow executed by the personality gender determination unit 12.

次に、この処理フローに従って、人名性別判定部12の実行する処理について詳細に説明する。   Next, according to this processing flow, processing executed by the personality gender determination unit 12 will be described in detail.

人名性別判定部12は、固有名詞認識部11が入力部10の入力した文章に含まれる人名部分を認識して、その人名部分にタグなどを付けた形で出力すると、図4の処理フローに示すように、先ず最初に、ステップS10で、入力文書を記事ごとに分割する。   When the proper name noun recognizing unit 11 recognizes the personal name part included in the sentence input by the input unit 10 and outputs the personal name part with a tag or the like added thereto, the personal name gender determining unit 12 displays As shown, first, in step S10, the input document is divided into articles.

続いて、ステップS11で、未処理の記事を1つ選択し、続くステップS12で、その選択した記事の文章について形態素解析を行う。   Subsequently, in step S11, one unprocessed article is selected, and in subsequent step S12, morphological analysis is performed on the sentence of the selected article.

続いて、ステップS13で、選択した記事に記載されている人名の中から、未処理の人名を1つ選択する。   Subsequently, in step S13, one unprocessed person name is selected from the person names described in the selected article.

続いて、ステップS14で、選択した人名の周辺の文脈情報を特定し、判定規則記憶部120の保存する判定規則の中から、その特定した文脈情報に合致する判定規則を抽出して、その抽出した判定規則で定義されている確信度に基づいて、性別ごとに、男性と判定する場合の確信度と女性と判定する場合の確信度とを得る。   Subsequently, in step S14, context information around the selected person name is specified, and a determination rule that matches the specified context information is extracted from the determination rules stored in the determination rule storage unit 120. On the basis of the certainty defined in the determination rule, the certainty for determining male and the certainty for determining female are obtained for each gender.

このとき、複数の判定規則を抽出する場合には、それらの判定規則で定義されている確信度を合計することで、性別ごとに、男性と判定する場合の確信度と女性と判定する場合の確信度とを得るようにする。   At this time, when extracting a plurality of determination rules, by summing the certainty levels defined in those determination rules, for each gender, the certainty level for determining male and the female level for determining female Try to get confidence and.

続いて、ステップS15で、人名性別辞書121の管理する辞書データを参照することで、選択した人名の表記に合致する辞書データを抽出して、その抽出した辞書データで定義されている確信度に基づいて、性別ごとに、男性と判定する場合の確信度と女性と判定する場合の確信度とを得る。   Subsequently, in step S15, by referring to the dictionary data managed by the personal name gender dictionary 121, dictionary data matching the notation of the selected personal name is extracted, and the certainty factor defined by the extracted dictionary data is obtained. Based on each gender, the certainty factor in the case of determining that it is male and the certainty factor in the case of determining that it is female are obtained.

このとき、複数の辞書データを抽出する場合には、それらの辞書データで定義されている確信度を合計することで、性別ごとに、男性と判定する場合の確信度と女性と判定する場合の確信度とを得るようにする。   At this time, in the case of extracting a plurality of dictionary data, by summing the certainty defined in those dictionary data, for each gender, the certainty for determining male and female Try to get confidence and.

続いて、ステップS16で、性別ごとに、ステップS14で得た判定結果の確信度と、ステップS15で得た判定結果の確信度とを合計して、その合計値の高い方の性別を選択した人名の性別と判定する。   Subsequently, in step S16, for each gender, the certainty factor of the determination result obtained in step S14 and the certainty factor of the determination result obtained in step S15 are summed, and the gender having the higher total value is selected. Judged as the gender of the name

例えば、「父・山田太郎は首相になった。」という文章の持つ「山田太郎」という人名の性別を判定する場合には、図5に示すように、ステップS14において、図2に示すような判定規則に従って、「山田太郎」が男性である確信度が1.0で、女性である確信度が0ということを得て、ステップS15において、図3に示すような人名性別辞書121の管理する辞書データに従って、「山田太郎」が男性である確信度が1.8で、女性である確信度が0ということを得て、ステップS16で、「山田太郎」が男性である確信度の合計値が2.8で、女性である確信度の合計値が0であるという判定結果に基づいて、「山田太郎」が最終的に男性であると判定するのである。   For example, when determining the gender of the personal name “Yamada Taro” possessed by the sentence “Father Taro Yamada became prime minister”, as shown in FIG. 5, in step S14, as shown in FIG. According to the determination rule, the certainty factor that “Taro Yamada” is male is 1.0 and the certainty factor that is female is 0, and in step S15, the personality gender dictionary 121 as shown in FIG. According to the dictionary data, the certainty factor that “Taro Yamada” is male is 1.8 and the certainty factor that is female is 0. In step S16, the total certainty factor that “Taro Yamada” is male. Is 2.8, and based on the determination result that the total value of the certainty of being a woman is 0, “Taro Yamada” is finally determined to be a man.

続いて、ステップS17で、ステップS16で得た判定結果を比較用バッファに格納し、続くステップS18で、選択した記事に記載されている全ての人名の性別を判定したのか否かを判断して、全ての人名を判定していないことを判断するときには、ステップS13の処理に戻る。   Subsequently, in step S17, the determination result obtained in step S16 is stored in the comparison buffer. In subsequent step S18, it is determined whether or not the genders of all personal names described in the selected article have been determined. When it is determined that all the names have not been determined, the process returns to step S13.

このようにして、ステップS13〜ステップS18の処理を繰り返していくときに、ステップS18で、選択した記事に記載されている全ての人名の性別を判定したことを判断するときには、ステップS19に進んで、比較用バッファに格納した人名について部分的に一致するものを抽出して、それらの氏名についての性別判定結果を集めることで、選択した記事に記載されている各人名について、類似する人名の性別判定結果を集める。   In this way, when the processes of step S13 to step S18 are repeated, when it is determined in step S18 that the genders of all personal names described in the selected article have been determined, the process proceeds to step S19. Extracting partial matches for the names stored in the comparison buffer and collecting the gender determination results for those names, for each name listed in the selected article, gender of similar names Collect judgment results.

続いて、ステップS20で、集めた性別判定結果の多数決を行うことで、選択した記事に記載されている各人名の性別を確定する。   Subsequently, in step S20, the gender of each personal name described in the selected article is determined by performing a majority decision on the collected gender determination results.

例えば、図6に示すように、同一記事内に、4つの「山田」という人名と、1つの「山田太郎」という人名がある場合にあって、ステップS14〜ステップS16の処理に従って、第1番目の「山田」が男性と判定され、第2番目の「山田」が女性と判定され、「山田太郎」が男性と判定され、第3番目の「山田」が男性と判定され、第4番目の「山田」が男性と判定される場合には、これらの性別判定結果の多数決を行うことで、これらの「山田」及び「山田太郎」が男性であると確定するのである。   For example, as shown in FIG. 6, there are four personal names “Yamada” and one personal name “Taro Yamada” in the same article. "Yamada" is determined to be male, the second "Yamada" is determined to be female, "Taro Yamada" is determined to be male, the third "Yamada" is determined to be male, and the fourth When “Yamada” is determined to be male, the majority of these gender determination results are determined to determine that “Yamada” and “Taro Yamada” are male.

ここで、類似する人名がない場合には、多数決を行うことなく、ステップS16で判定した性別をそのまま確定することになる。   Here, if there is no similar person name, the gender determined in step S16 is determined as it is without making a majority vote.

続いて、ステップS21で、選択した記事に記載されている各人名に対して、ステップS20で確定した性別情報を付与し、続くステップS22で、選択した記事の文章を出力用バッファに格納する。   Subsequently, in step S21, the gender information determined in step S20 is assigned to each person name described in the selected article, and in step S22, the text of the selected article is stored in the output buffer.

続いて、ステップS23で、次の記事に対しての処理に入るために比較用バッファをクリアし、続くステップS24で、ステップS10で分割した全ての記事について判定を行ったのか否かを判断して、未判定の記事があることを判断するときには、ステップS11の処理に戻る。   Subsequently, in step S23, the comparison buffer is cleared in order to start processing for the next article. In subsequent step S24, it is determined whether or not all the articles divided in step S10 have been determined. When it is determined that there is an undetermined article, the process returns to step S11.

一方、ステップS24の判断処理に従って、ステップS10で分割した全ての記事について判定を行ったことを判断するときには、ステップS25に進んで、出力用バッファの内容を機械翻訳部13に出力する。   On the other hand, when it is determined that all the articles divided in step S10 have been determined according to the determination process in step S24, the process proceeds to step S25, and the contents of the output buffer are output to the machine translation unit 13.

このようにして、人名性別判定部12は、入力部10の入力した文章を記事に分割して、その記事を単位にして、固有名詞認識部11の認識した人名について、その人名の周囲の文脈情報やその人名の表記に基づいて、その人名の性別を判定するように処理するのである。   In this way, the personality gender determination unit 12 divides the sentence input by the input unit 10 into articles, and for each personal name recognized by the proper noun recognition unit 11 in units of the article, the context around the personal name Processing is performed so as to determine the gender of the person name based on the information and the notation of the person name.

この人名の性別の判定結果を受けて、機械翻訳部13は、人名性別判定部12の付与した人名の性別情報を利用することで適切な代名詞を選択しつつ、入力部10の入力した文章を機械翻訳することを実現できるようになる。   In response to the determination result of the gender of the personal name, the machine translation unit 13 selects the appropriate pronoun by using the gender information of the personal name given by the personal name gender determination unit 12 and reads the sentence input by the input unit 10. Machine translation can be realized.

図1に示す実施形態例では、性別判定部123は、判定規則記憶部120の保存する判定規則と、人名性別辞書121の管理する辞書データとを用いて人名の性別を判定するように処理したが、他の方法を用いて人名の性別を判定することも可能である。例えば、機械学習による分類器の手法を用いることも可能である。   In the exemplary embodiment illustrated in FIG. 1, the gender determination unit 123 performs processing to determine the gender of the personal name using the determination rule stored in the determination rule storage unit 120 and the dictionary data managed by the personal name gender dictionary 121. However, it is also possible to determine the gender of the name using other methods. For example, a classifier method based on machine learning can be used.

この機械学習による分類器の手法を用いて人名の性別を判定する場合には、性別判定部123に機械学習機能を持たせて、学習時に、例えば、
{人名の2つ前の形態素の表記,人名の2つ前の形態素の品詞,
人名の1つ前の形態素の表記,人名の1つ前の形態素の品詞,
人名の表記,人名の最初の形態素の表記,人名の最後の形態素の表記,
人名の1つ後の形態素の表記,人名の1つ後の形態素の品詞,
人名の2つ後の形態素の表記,人名の2つ後の形態素の品詞,
人名の性別}
というベクトルデータを蓄積する。
When determining the gender of a person's name using this classifier method by machine learning, the gender determination unit 123 has a machine learning function, and at the time of learning, for example,
{Indication of the morpheme before the name of the person, part of speech of the morpheme before the name of the person,
The notation of the morpheme before the name of the person, the part of speech of the morpheme before the name of the person,
Notation of person name, notation of first morpheme of person name, notation of last morpheme of person name,
The notation of the morpheme after the name, the part of speech of the morpheme after the name,
Notation of the morpheme after the name of the person, part of speech of the morpheme after the name of the person,
Gender of the name}
Is stored.

例えば、「父・山田太郎は首相になった。」という文章と、「山田太郎」が男性であるという性別情報とに基づいて、
{父,名詞,・,記号,山田太郎,山田,太郎,は,助詞,首相,名詞,男性}
というベクトルデータを生成して、それを蓄積するのである。
For example, based on the sentence “Father Taro Yamada became Prime Minister” and gender information that “Taro Yamada” is a male,
{Father, noun, .., symbol, Taro Yamada, Taro Yamada, particle, prime minister, noun, male}
Is generated and stored.

性別判定部123は、ベクトルデータを蓄積すると、蓄積したベクトルデータに基づいて、例えば、「2つ前の形態素の表記が『父』ならば」とか、「人名の最後の表記が『太郎』ならば」といったようなノードを生成し、それに対応付けて、リーフを人名の性別とする木を生成することで決定木を生成する。   When the gender determination unit 123 accumulates the vector data, based on the accumulated vector data, for example, “if the notation of the previous morpheme is“ father ”” or “if the last notation of the personal name is“ Taro ” A decision tree is generated by generating a node such as “If”, and generating a tree having a leaf as the gender of the name in association with the node.

そして、性別判定部123は、決定木を生成した後、実際の判定処理に入ると、性別の判定対象となる人名についてのベクトルデータと生成した決定木とに基づいて、その人名の性別を判定する。   Then, after generating the decision tree, the gender determination unit 123 determines the gender of the person name based on the vector data about the person name to be determined for gender and the generated decision tree when entering the actual determination process. To do.

この機械学習による分類器の生成アルゴリズムについては、「AIによるデータ解析,J.R.キンラン著 古川康一監訳,pp4−8,1995」など各種文献で紹介されているが、本発明では、上述したようなデータ形式のベクトルデータを使うことで、人名の性別の判定を可能にしている。   This classifier generation algorithm by machine learning has been introduced in various documents such as “Data analysis by AI, translated by JR Kinran, Koichi Furukawa, pp 4-8, 1995”. By using vector data in such a data format, it is possible to determine the sex of a person's name.

次に、本発明の有効性を検証するために行った実験について説明する。   Next, an experiment conducted for verifying the effectiveness of the present invention will be described.

この実験は、機械学習による分類器の手法を用いて人名の性別を判定することで行った。決定木の生成に用いたベクトルデータのデータ形式については上述したものを用いた。なお、正解率を調べるために行ったことから、上述した多数決の方法については用いていない。   This experiment was performed by determining the gender of a person's name using the classifier method by machine learning. As the data format of the vector data used for the generation of the decision tree, the one described above is used. Note that the majority vote method described above is not used because it was performed to check the accuracy rate.

実験データは、人名と性別をラベル付けした新聞記事7日分(約8,000文)を学習データとして用い、新聞記事1日分(約1,200文)を性別判定のテストデータとして用いることで行った。図7に、実験データの一例を図示する。   For experimental data, use 7 days (about 8,000 sentences) of newspaper articles labeled with names and gender as learning data, and use 1 day of newspaper articles (about 1,200 sentences) as test data for sex determination. I went there. FIG. 7 illustrates an example of experimental data.

この実験においては、403個の人名が性別の判定対象となり、その内の367個の人名の性別が正解を示したので、正解率は91%(=367/403)であった。この403個の人名の内84%が男性であり、何も行わずに全てを男性と判定すると84%の精度となるので、本発明による効果があることが検証できた。   In this experiment, 403 person names were subject to gender determination, and the sexes of 367 person names showed correct answers, so the correct rate was 91% (= 367/403). Of these 403 person names, 84% are men, and if all are determined to be men without doing anything, the accuracy is 84%. Therefore, it was verified that the effects of the present invention were effective.

また、この実験においては、姓のみの人名については172個が判定対象となり、その内の153個の人名の性別が正解を示したので、正解率は89%(=153/172)であった。この153個の姓のみの人名の内83%が男性であり、何も行わずに全てを男性と判定すると83%の精度となるので、本発明による効果があることが検証できた。これから、人名性別辞書121だけでは判定できない姓のみの人名の性別判定に対して、本発明が有効であることが検証できた。   Further, in this experiment, 172 people with only surnames were judged, and the sex of 153 people showed correct answers, so the correct rate was 89% (= 153/172). . Of these 153 surnames, 83% are males, and if all are determined to be males without doing anything, the accuracy is 83%. Thus, the effect of the present invention was verified. From this, it can be verified that the present invention is effective for the gender determination of the personal name of only the surname that cannot be determined only by the personal name gender dictionary 121.

この実験では、上述した多数決の方法については用いていないので、上述した多数決の方法を用いることで、この正解率はさらに高められることになる。   In this experiment, the above-described majority method is not used, so the accuracy rate is further increased by using the above-described majority method.

本発明では、判定規則記憶部120の保存する判定規則と、人名性別辞書121の管理する辞書データに対して確信度を定義するという構成を採っているが、この確信度については人名性別の判定結果が向上するようにと学習することが好ましい。   In the present invention, the confidence rule is defined for the judgment rule stored in the judgment rule storage unit 120 and the dictionary data managed by the personality gender dictionary 121. It is preferable to learn to improve the result.

この確信度の学習方法としては、人名と性別をラベル付けしたデータを用意して、そのデータの9割を学習とし、残り1割のデータをテスト用として性別判定を行い、テスト用のデータが最もよく判定できるようになる確信度を求めることで学習するという方法を用いることが可能である。   As a method of learning the certainty factor, prepare data labeled with a person's name and gender, 90% of the data is learned, the remaining 10% of the data is used for testing, and gender determination is performed. It is possible to use a method of learning by obtaining a certainty factor that allows the best judgment.

このような方法を用いる場合、テスト用のデータとする1割のデータを順番に別のものに変更することによって、合計10回の性別判定実験が行えるので、その結果が最もよくなる確信度を学習することにより適切な確信度を学習できるようになる。   When such a method is used, a total of 10 sex determination experiments can be performed by changing 10% of the test data to another one in order, so the confidence that the result is the best is learned. By doing so, it becomes possible to learn an appropriate certainty level.

本発明によれば、文章に含まれる人名の性別を判定する必要があるときに、姓のみの人名や幅広い人名について、その性別を判定できるようになるものであり、文章に含まれる人名の性別を判定する必要がある機械翻訳などのような様々な分野に適用可能である。   According to the present invention, when it is necessary to determine the gender of a person name included in a sentence, it becomes possible to determine the gender of only a surname or a wide range of person names. It can be applied to various fields such as machine translation that needs to be determined.

(付記1)処理対象となる文章に含まれる人名の性別を判定するための処理を行う人名性別判定プログラムであって、コンピュータを、前記人名の周囲にある文脈情報を抽出する抽出手段と、前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段として機能させるための人名性別判定プログラム。   (Supplementary note 1) A personality gender determination program for performing a process for determining the gender of a personal name included in a sentence to be processed, the computer extracting the context information around the personal name, A personal name gender determination program for functioning as a determination unit for determining gender of the personal name based on information extracted by an extraction unit.

(付記2)処理対象となる文章に含まれる人名の性別を判定するための処理を行う人名性別判定プログラムであって、コンピュータを、前記人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段として機能させるための人名性別判定プログラム。   (Supplementary note 2) A personality gender determination program for performing a process for determining the gender of a personal name included in a sentence to be processed, the computer extracting context information around the personal name and a description of the personal name A personal sex determination program for functioning as an extraction means and a determination means for determining the sex of the personal name based on the information extracted by the extraction means.

(付記3)付記2に記載の人名性別判定プログラムにおいて、前記判定手段は、前記抽出手段の抽出した文脈情報に基づいて行った性別の判定結果の確信度と、前記抽出手段の抽出した人名表記に基づいて行った性別の判定結果の確信度との合計値を算出して、その合計値に基づいて、前記人名の性別を判定することを、特徴とする人名性別判定プログラム。   (Supplementary note 3) In the personal name sex determination program according to supplementary note 2, the determination means includes a certainty factor of the gender determination result performed based on the context information extracted by the extraction means, and a personal name expression extracted by the extraction means The personal name gender determination program characterized by calculating a total value with the certainty of the gender determination result made based on the above and determining the gender of the personal name based on the total value.

(付記4)付記1ないし3のいずれか1項に記載の人名性別判定プログラムにおいて、コンピュータを、さらに、処理対象となる文章に含まれる類似する人名について、前記判定手段により判定された性別の情報を比較して、その比較結果に基づいて、その判定された性別の情報を修正する修正手段として機能させることを、特徴とする人名性別判定プログラム。   (Supplementary Note 4) In the personal name gender determination program according to any one of supplementary notes 1 to 3, the computer further includes information on the gender determined by the determination means for a similar personal name included in the sentence to be processed. And a personality gender determination program characterized in that, based on the comparison result, the information on the determined gender is corrected.

(付記5)文章を機械翻訳するための処理を行う機械翻訳プログラムであって、コンピュータを、機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報を抽出する抽出手段と、前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段と、前記判定手段の判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行う選択手段として機能させるための機械翻訳プログラム。   (Supplementary note 5) A machine translation program that performs processing for machine translation of a sentence, in which context information around the person's name is processed using the gender of the person name included in the sentence to be machine translated Extraction means for extracting, based on the information extracted by the extraction means, determination means for determining the gender of the personal name, and based on the gender determined by the determination means, pronouns required for machine translation A machine translation program for functioning as a selection means for performing selection.

(付記6)文章を機械翻訳するための処理を行う機械翻訳プログラムであって、コンピュータを、機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、
前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段と、
前記判定手段の判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行う選択手段として機能させるための機械翻訳プログラム。
(Supplementary note 6) A machine translation program that performs processing for machine translation of a sentence, and uses the computer as a processing target for the gender of a person name included in the sentence to be machine translated, and context information around the person name And an extracting means for extracting the notation of the person name,
Determination means for determining the gender of the person name based on the information extracted by the extraction means;
A machine translation program for functioning as a selection means for selecting a pronoun necessary for machine translation based on the gender determined by the determination means.

(付記7)付記6に記載の機械翻訳プログラムにおいて、前記判定手段は、前記抽出手段の抽出した文脈情報に基づいて行った性別の判定結果の確信度と、前記抽出手段の抽出した人名表記に基づいて行った性別の判定結果の確信度との合計値を算出して、その合計値に基づいて、前記人名の性別を判定することを、特徴とする機械翻訳プログラム。   (Supplementary note 7) In the machine translation program according to supplementary note 6, the determination means includes a certainty factor of the gender determination result performed based on the context information extracted by the extraction means and a personal name notation extracted by the extraction means. A machine translation program characterized by calculating a total value with the certainty of the determination result of gender performed based on the result and determining the gender of the personal name based on the total value.

(付記8)付記5ないし7のいずれか1項に記載の機械翻訳プログラムにおいて、コンピュータを、さらに、機械翻訳の対象となる文章に含まれる類似する人名について、前記判定手段により判定された性別の情報を比較して、その比較結果に基づいて、その判定された性別の情報を修正する修正手段として機能させることを、特徴とする機械翻訳プログラム。   (Supplementary note 8) In the machine translation program according to any one of supplementary notes 5 to 7, the computer and the gender determined by the determination means for a similar person name included in a sentence to be machine-translated. A machine translation program characterized by comparing information and functioning as correcting means for correcting the determined sex information based on the comparison result.

(付記9)処理対象となる文章に含まれる人名の性別を判定する人名性別判定装置であって、前記人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段とを備えることを、特徴とする人名性別判定装置。   (Supplementary note 9) A personality gender determination apparatus for determining the gender of a personal name included in a sentence to be processed, the extraction means for extracting context information around the personal name and the representation of the personal name, A personality gender determination device comprising: a determination unit that determines the gender of the personal name based on the extracted information.

(付記10)文章を機械翻訳する機械翻訳装置であって、機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段と、前記判定手段の判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行う選択手段とを備えることを、特徴とする機械翻訳装置。   (Supplementary Note 10) A machine translation device for machine-translating a sentence, and extracting context information and the notation of the person's name around the person's name by using the gender of the person's name included in the sentence to be machine-translated Based on information extracted by the extraction means, extraction means, determination means for determining the gender of the personal name, and selection of pronouns required for machine translation based on the gender determined by the determination means A machine translation device comprising a selection unit.

(付記11)処理対象となる文章に含まれる人名の性別を判定する人名性別判定装置で実行される人名性別判定処理方法であって、前記人名の周囲にある文脈情報およびその人名の表記を抽出し、前記抽出した情報に基づいて、前記人名の性別を判定することを、特徴とする人名性別判定処理方法。   (Supplementary Note 11) A personality gender determination processing method executed by a personality gender determination apparatus for determining the gender of a personal name included in a sentence to be processed, wherein context information around the personal name and a description of the personal name are extracted And determining the gender of the personal name based on the extracted information.

(付記12)文章を機械翻訳する機械翻訳装置で実行される機械翻訳処理方法であって、機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報およびその人名の表記を抽出し、前記抽出した情報に基づいて、前記人名の性別を判定し、前記判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行うことを、特徴とする機械翻訳処理方法。   (Additional remark 12) It is the machine translation processing method performed with the machine translation apparatus which machine-translates a text | text, Comprising: The context information in the circumference | surroundings of the person name made into the object of the gender of the person name contained in the sentence used as the machine translation object Extracting the notation of the person's name, determining the gender of the person's name based on the extracted information, and selecting pronouns required for machine translation based on the determined gender, A machine translation processing method.

本発明を具備する機械翻訳装置の一実施形態例である。1 is an embodiment of a machine translation device including the present invention. 判定規則記憶部に保存される判定規則の一例を示す図である。It is a figure which shows an example of the determination rule preserve | saved at the determination rule memory | storage part. 人名性別辞書に管理される辞書データの一例を示す図である。It is a figure which shows an example of the dictionary data managed by a personal name sex dictionary. 人名性別判定部の実行する処理フローである。It is a processing flow which a person name gender determination part performs. 人名性別判定部の実行する処理の説明図である。It is explanatory drawing of the process which a person name sex determination part performs. 人名性別判定部の実行する処理の説明図である。It is explanatory drawing of the process which a person name sex determination part performs. 本発明の有効性を検証するための行った実験データの一例を示す図である。It is a figure which shows an example of the experimental data performed for verifying the effectiveness of this invention.

符号の説明Explanation of symbols

1 機械翻訳装置
10 入力部
11 固有名詞認識部
12 人名性別判定部
13 機械翻訳部
14 出力部
120 判定規則記憶部
121 人名性別辞書
122 前処理部
123 性別判定部
124 性別確定部
125 性別情報付与部
DESCRIPTION OF SYMBOLS 1 Machine translation apparatus 10 Input part 11 Proper noun recognition part 12 Personality gender determination part 13 Machine translation part 14 Output part 120 Judgment rule memory | storage part 121 Personality sex dictionary 122 Pre-processing part 123 Gender judgment part 124 Gender determination part 125 Gender information provision part

Claims (10)

処理対象となる文章に含まれる人名の性別を判定するための処理を行う人名性別判定プログラムであって、
コンピュータを、
前記人名の周囲にある文脈情報を抽出する抽出手段と、
前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段として機能させるための人名性別判定プログラム。
A personal name gender determination program for performing a process for determining the gender of a personal name included in a sentence to be processed,
Computer
Extracting means for extracting context information around the person name;
A personality gender determination program for functioning as a determination unit for determining gender of the personal name based on information extracted by the extraction unit.
処理対象となる文章に含まれる人名の性別を判定するための処理を行う人名性別判定プログラムであって、
コンピュータを、
前記人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、
前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段として機能させるための人名性別判定プログラム。
A personal name gender determination program for performing a process for determining the gender of a personal name included in a sentence to be processed,
Computer
Extraction means for extracting contextual information around the person name and a description of the person name;
A personality gender determination program for functioning as a determination unit for determining gender of the personal name based on information extracted by the extraction unit.
請求項1又は2に記載の人名性別判定プログラムにおいて、
コンピュータを、さらに、処理対象となる文章に含まれる類似する人名について、前記判定手段により判定された性別の情報を比較して、その比較結果に基づいて、その判定された性別の情報を修正する修正手段として機能させることを、
特徴とする人名性別判定プログラム。
In the personal gender determination program according to claim 1 or 2,
The computer further compares the sex information determined by the determination means for similar names included in the sentence to be processed, and corrects the determined sex information based on the comparison result. To function as a correction means,
A personal name gender determination program.
文章を機械翻訳するための処理を行う機械翻訳プログラムであって、
コンピュータを、
機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報を抽出する抽出手段と、
前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段と、
前記判定手段の判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行う選択手段として機能させるための機械翻訳プログラム。
A machine translation program that performs processing for machine translation of a sentence,
Computer
An extraction means for extracting the context information around the person name, with the gender of the person name included in the sentence to be machine-translated;
Determination means for determining the gender of the person name based on the information extracted by the extraction means;
A machine translation program for functioning as a selection means for selecting a pronoun necessary for machine translation based on the gender determined by the determination means.
文章を機械翻訳するための処理を行う機械翻訳プログラムであって、
コンピュータを、
機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、
前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段と、
前記判定手段の判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行う選択手段として機能させるための機械翻訳プログラム。
A machine translation program that performs processing for machine translation of a sentence,
Computer
An extraction means for extracting the context information around the person name and the notation of the person name, with the gender of the person name included in the sentence to be machine-translated as a processing target;
Determination means for determining the gender of the person name based on the information extracted by the extraction means;
A machine translation program for functioning as a selection means for selecting a pronoun necessary for machine translation based on the gender determined by the determination means.
請求項4又は5に記載の機械翻訳プログラムにおいて、
コンピュータを、さらに、機械翻訳の対象となる文章に含まれる類似する人名について、前記判定手段により判定された性別の情報を比較して、その比較結果に基づいて、その判定された性別の情報を修正する修正手段として機能させることを、
特徴とする機械翻訳プログラム。
In the machine translation program according to claim 4 or 5,
The computer further compares the sex information determined by the determination means with respect to similar person names included in the sentences to be machine-translated, and the determined sex information is obtained based on the comparison result. To function as a correction means to correct,
Features machine translation program.
処理対象となる文章に含まれる人名の性別を判定する人名性別判定装置であって、
前記人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、
前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段とを備えることを、
特徴とする人名性別判定装置。
A personality gender determination device that determines the gender of a personal name included in a sentence to be processed,
Extraction means for extracting contextual information around the person name and a description of the person name;
A determination unit that determines gender of the person name based on the information extracted by the extraction unit;
Characteristic gender determination device.
文章を機械翻訳する機械翻訳装置であって、
機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報およびその人名の表記を抽出する抽出手段と、
前記抽出手段の抽出した情報に基づいて、前記人名の性別を判定する判定手段と、
前記判定手段の判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行う選択手段とを備えることを、
特徴とする機械翻訳装置。
A machine translation device that machine translates sentences,
An extraction means for extracting the context information around the person name and the notation of the person name, with the gender of the person name included in the sentence to be machine-translated as a processing target;
Determination means for determining the gender of the person name based on the information extracted by the extraction means;
A selection means for selecting a pronoun necessary for machine translation based on the gender determined by the determination means,
A machine translation device.
処理対象となる文章に含まれる人名の性別を判定する人名性別判定装置で実行される人名性別判定処理方法であって、
前記人名の周囲にある文脈情報およびその人名の表記を抽出し、
前記抽出した情報に基づいて、前記人名の性別を判定することを、
特徴とする人名性別判定処理方法。
A personality gender determination processing method executed by a personality gender determination device that determines the gender of a personal name included in a sentence to be processed,
Extracting contextual information around the person name and the notation of the person name,
Determining the gender of the person name based on the extracted information;
Characteristic name gender determination processing method.
文章を機械翻訳する機械翻訳装置で実行される機械翻訳処理方法であって、
機械翻訳の対象となる文章に含まれる人名の性別を処理対象として、その人名の周囲にある文脈情報およびその人名の表記を抽出し、
前記抽出した情報に基づいて、前記人名の性別を判定し、
前記判定した性別に基づいて、機械翻訳の際に必要となる代名詞の選択を行うことを、
特徴とする機械翻訳処理方法。
A machine translation processing method executed by a machine translation device that machine translates sentences,
Using the gender of the name of the person included in the text subject to machine translation as the processing target, the context information around the name and the notation of the name are extracted
Based on the extracted information, determine the gender of the person name,
Based on the determined gender, selecting pronouns necessary for machine translation,
A machine translation processing method.
JP2006086831A 2006-03-28 2006-03-28 Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method Withdrawn JP2007264858A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006086831A JP2007264858A (en) 2006-03-28 2006-03-28 Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006086831A JP2007264858A (en) 2006-03-28 2006-03-28 Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method

Publications (1)

Publication Number Publication Date
JP2007264858A true JP2007264858A (en) 2007-10-11

Family

ID=38637810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006086831A Withdrawn JP2007264858A (en) 2006-03-28 2006-03-28 Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method

Country Status (1)

Country Link
JP (1) JP2007264858A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037735A (en) * 2010-08-06 2012-02-23 Furyu Kk Image editing device, image editing method and program
JP2014074914A (en) * 2013-11-11 2014-04-24 Furyu Kk Image editing apparatus and method, and program
CN113128205A (en) * 2021-05-12 2021-07-16 北京奇艺世纪科技有限公司 Script information processing method and device, electronic equipment and storage medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012037735A (en) * 2010-08-06 2012-02-23 Furyu Kk Image editing device, image editing method and program
JP2014074914A (en) * 2013-11-11 2014-04-24 Furyu Kk Image editing apparatus and method, and program
CN113128205A (en) * 2021-05-12 2021-07-16 北京奇艺世纪科技有限公司 Script information processing method and device, electronic equipment and storage medium
CN113128205B (en) * 2021-05-12 2023-07-18 北京奇艺世纪科技有限公司 Scenario information processing method and device, electronic equipment and storage medium

Similar Documents

Publication Publication Date Title
CN109933785B (en) Method, apparatus, device and medium for entity association
JP5599662B2 (en) System and method for converting kanji into native language pronunciation sequence using statistical methods
CN105931644B (en) A kind of audio recognition method and mobile terminal
CN110427618B (en) Countermeasure sample generation method, medium, device and computing equipment
Li et al. Generating long and informative reviews with aspect-aware coarse-to-fine decoding
Ljubešić et al. Standardizing tweets with character-level machine translation
KR20160029587A (en) Method and apparatus of Smart Text Reader for converting Web page through TTS
CN115114919A (en) Method and device for presenting prompt information and storage medium
CN109948144A (en) A method of the Teachers &#39; Talk Intelligent treatment based on classroom instruction situation
CN107870900B (en) Method, apparatus and recording medium for providing translated text
KR101333485B1 (en) Method for constructing named entities using online encyclopedia and apparatus for performing the same
Şenel et al. Measuring cross-lingual semantic similarity across European languages
JP2007264858A (en) Personal name sexuality determination program, machine translation program, personal name sexuality determination device, machine translation device, personal name sexuality determination processing method and machine translation processing method
JP2009009307A (en) Document image processor and processing method
CN116306594A (en) Medical OCR recognition error correction method
KR20200057824A (en) Word spelling correction system
Jordão et al. Metaphone-pt_BR: the phonetic importance on search and correction of textual information
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
JP4478042B2 (en) Word set generation method with frequency information, program and program storage medium, word set generation device with frequency information, text index word creation device, full-text search device, and text classification device
CN111310457B (en) Word mismatching recognition method and device, electronic equipment and storage medium
Aziz et al. A hybrid model for spelling error detection and correction for Urdu language
CN114298048A (en) Named entity identification method and device
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
CN112632985A (en) Corpus processing method and device, storage medium and processor
JP2003330926A (en) Translation method, device, and program

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20090602