JP6589704B2 - Sentence boundary estimation apparatus, method and program - Google Patents
Sentence boundary estimation apparatus, method and program Download PDFInfo
- Publication number
- JP6589704B2 JP6589704B2 JP2016053510A JP2016053510A JP6589704B2 JP 6589704 B2 JP6589704 B2 JP 6589704B2 JP 2016053510 A JP2016053510 A JP 2016053510A JP 2016053510 A JP2016053510 A JP 2016053510A JP 6589704 B2 JP6589704 B2 JP 6589704B2
- Authority
- JP
- Japan
- Prior art keywords
- word string
- replacement
- sentence
- dictionary
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、自然言語処理において文の境界を推定する技術に関する。 The present invention relates to a technique for estimating sentence boundaries in natural language processing.
自然言語を文単位で解析する場合、まず、文の境界を推定する処理が必要である。以降、文の境界を、単に文境界とも記載する。文境界は、一般的に、文末を表す文末記号の直後に存在するが、文末記号は、文末でない箇所に出現する場合がある。例えば、英文におけるピリオドの文字は、文末にも出現するが、単語の省略形等に含まれることにより文の途中に出現する場合もある。そこで、文境界を推定する処理では、どのように文境界を判断するかが問題となる。 When analyzing a natural language in sentence units, first, processing for estimating sentence boundaries is required. Hereinafter, sentence boundaries are also simply referred to as sentence boundaries. The sentence boundary generally exists immediately after the sentence end symbol representing the end of the sentence, but the sentence end symbol may appear at a location other than the end of the sentence. For example, a period character in English may appear at the end of a sentence, but may appear in the middle of a sentence by being included in a word abbreviation. Therefore, in the process of estimating the sentence boundary, how to determine the sentence boundary becomes a problem.
このような問題に関連して文境界を推定する技術の一例が、特許文献1に記載されている。特許文献1に記載された関連技術は、ピリオドを含む省略形等の単語を辞書に登録しておく。そして、この関連技術は、文章においてスペースで区切られた文字列が、ピリオドを含み且つ辞書に登録されている場合、そのピリオドの直後に文境界は存在しないと判断する。また、この関連技術は、スペースで区切られた文字列が辞書に登録されておらず且つその末尾がピリオドである場合、そのピリオドの直後に文境界が存在すると判断する。
An example of a technique for estimating sentence boundaries related to such a problem is described in
ところが、文末記号を含む単語には、文末に出現することがない単語と、文の途中にも文末にも出現し得る単語とがある。例えば、「Mr.」という「Mister」の省略形を表す単語は、必ず文の途中に出現し、文末に出現することはない。一方、「U.S.」という「United States」の省略形を表す単語は、文の途中にも文末にも出現し得る。したがって、文末記号を含む単語を辞書に登録するだけでは、文境界を正しく推定できない場合がある。 However, the word including the sentence end symbol includes a word that does not appear at the end of the sentence and a word that can appear at the end of the sentence or at the end of the sentence. For example, the word “Mr.” representing the abbreviation of “Mister” always appears in the middle of a sentence and never appears at the end of the sentence. On the other hand, a word representing an abbreviation of “United States”, “U.S.”, may appear in the middle or end of a sentence. Therefore, there are cases where sentence boundaries cannot be estimated correctly only by registering words including sentence end symbols in the dictionary.
そこで、特許文献1に記載された関連技術を応用し、文末記号を含む複合語を辞書に登録しておく手法が考えられる(特許文献2の0006段落参照)。この手法では、文末記号を含む単語のうち「Mr.」のように文末に出現することがない単語については、その単語そのものが種別1として辞書に登録される。また、文末記号を含む単語のうち「U.S.」のように文の途中にも文末にも出現し得る単語については、その単語を含む「U.S. President」等の複合語が種別2として辞書に登録される。
Therefore, a method of applying a related technique described in
この場合、次の判断基準により、文章に出現する文末記号の直後に文境界が存在するか否かが判断可能となる。
・基準1:文章に出現する文末記号が、種別1として辞書に登録されている単語にマッチする範囲に含まれていれば、その直後に文境界は存在しないと判断される。
・基準2:文章に出現する文末記号が、種別2として辞書に登録されている単語にマッチする範囲に含まれており、かつ、その範囲の末尾の文字でなければ、その直後に文境界は存在しないと判断される。
・基準3:基準1および基準2に該当しない場合、一般的な文境界の判断基準が適用される。
In this case, it is possible to determine whether or not a sentence boundary exists immediately after the sentence end symbol appearing in the sentence, according to the following determination criteria.
Criteria 1: If a sentence ending symbol appearing in a sentence is included in a range matching a word registered in the dictionary as
-Criterion 2: If the end-of-sentence symbol that appears in the sentence is included in a range that matches a word registered in the dictionary as
-Standard 3: When the
一般的な文境界の判断基準について説明する。一般的な文境界の判断基準では、例えば、文章に出現する文末記号について、以下の条件1および2が全て満たされる場合には、その文末記号の直後に文境界は存在すると判断される。また、条件1および2の少なくとも一方が満たされない場合には、その文末記号の直後に文境界は存在しないと判断される。
・条件1:その文末記号の直後に文字が存在するならば、その文字は空白文字である。
・条件2:その文末記号の直後に単語が存在するならば、その単語は大文字で始まる。
General judgment criteria for sentence boundaries will be described. According to a general criterion for determining a sentence boundary, for example, when all of the following
Condition 1: If a character exists immediately after the end-of-sentence symbol, the character is a blank character.
• Condition 2: If a word exists immediately after the end of the sentence, the word starts with a capital letter.
このような、文末記号を含む複合語を辞書に登録しておく手法を用いて、文境界を推定する具体例について説明する。ここでは、辞書には、「Mr.」が種別1の単語として登録され、「U.S. President」および「U.S. Senate」が種別2の単語として登録されているものとする。
A specific example of estimating a sentence boundary using such a method of registering a compound word including a sentence end symbol in a dictionary will be described. Here, it is assumed that “Mr.” is registered as a
このとき、「A former U.S. President gave a speech at the U.S. Senate yesterday.」という文章が入力されたとする。この場合、一番目の「U.S.」に含まれる2つのピリオドは、それぞれ、辞書に登録された種別2のエントリ「U.S. President」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準2により、この直後に文境界は存在しないと判断される。同様に、二番目の「U.S.」に含まれる2つのピリオドは、それぞれ、辞書に登録された種別2のエントリ「U.S. Senate」にマッチする範囲に含まれ、かつ、その範囲の末尾の文字ではない。このため、これらのピリオドは、上記の基準2により、この直後に文境界は存在しないと判断される。
It is assumed that a sentence “A former U.S. President gave a speech at the U.S. Senate yesterday” is input. In this case, each of the two periods included in the first “US” is included in a range that matches the
また、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この場合、「U.S.」の「U」の直後のピリオドは、辞書に登録されたエントリにマッチする範囲に含まれておらず、上記の基準1および基準2に該当しない。そこで、このピリオドには、一般的な文境界の判断基準が適用される。このピリオドは、上記の条件1「直後の文字が空白文字である」を満たさないため、この直後に文境界は存在しないと判断される。また、「U.S.」の「S」の直後のピリオドにも、同様に一般的な文境界の判断基準が適用される。このピリオドは、上記の条件1「直後の文字が空白文字である」および条件2「直後の単語Japanが大文字で始まる」を満たすため、この直後に文境界が存在すると判断される。
Further, it is assumed that a sentence “Canada is located next to the U.S. Japan is located next to China” is input. In this case, the period immediately after “U” of “U.S.” is not included in the range matching the entry registered in the dictionary, and does not correspond to the
また、文の境界を推定する技術の他の一例が、特許文献2に記載されている。特許文献2に記載された関連技術は、まず、単語に含まれていない文末記号を用いて文を切り出す。そして、この関連技術は、切り出した文の途中に文末記号が存在する場合、その文を構成する各単語について品詞を推定する。そして、この関連技術は、切り出した文において途中の文末記号の前方および後方にそれぞれ主動詞が出現する場合は、その文末記号の直後に文境界が存在すると推定する。また、この関連技術は、前方および後方のいずれか一方にのみ主動詞が出現する場合は、その文末記号の直後に文境界が存在しないと推定する。
Another example of a technique for estimating sentence boundaries is described in
しかしながら、上述の関連技術には、以下の問題がある。 However, the related technology described above has the following problems.
特許文献1に記載された関連技術は、文末記号を含む単語のうち文の途中にも文末にも出現し得る単語を考慮していない。そのため、特許文献1に記載された関連技術は、文末記号を末尾に含む単語が文末に出現した場合、その直後に文境界はないと判断してしまう。
The related technique described in
また、特許文献2に記載された関連技術は、切り出した文の途中に文末記号が出現する場合、切り出した文を構成する各単語について品詞を推定する処理が必要となる。品詞推定処理としては、例えば、品詞情報が付加されたコーパスを用いた確率的手法を用いることが示されている。このような品詞推定処理は、文境界を推定する装置の負荷を大きくするという問題がある。
Moreover, the related technique described in
また、文末記号を含む複合語を辞書に登録しておく手法は、文末記号を含む複合語をできるだけ多く辞書に登録しておくことに手間がかかる、という問題がある。 Further, the method of registering a compound word including a sentence ending symbol in the dictionary has a problem that it takes time to register as many compound words including a sentence ending symbol as possible in the dictionary.
この問題について、具体例を用いて説明する。例えば、「U.S.」のフルスペルである「United States」を含む複合語は、数多くある。例えば、「United States President」、「United States Senate」、「United States Department of State」、「United States Department of Defense」などが挙げられる。これらの複合語全てについて、「United States」を、文末記号を含む省略形である「U.S.」に置き換えた複合語を、辞書に登録しておくことは、手間がかかる。この問題は、文末記号を含む単語のフルスペル表記が高い造語力を持つ場合に特に顕著となる。 This problem will be described using a specific example. For example, there are many compound words including “United States” which is the full spelling of “U.S.”. For example, “United States President”, “United States Senate”, “United States Department of State”, “United States Department of Defense”, and the like. For all of these compound words, it takes time to register compound words in which “United States” is replaced with “U.S.”, which is an abbreviation including a sentence ending symbol, in the dictionary. This problem becomes particularly noticeable when the full spelling of a word including a sentence ending symbol has a high word-making ability.
また、文末記号を含む複合語を辞書に登録しておく手法では、本来は文境界が存在しないはずの箇所で、文境界が存在すると推定することを回避するためには、文末記号を含む複合語をより多く辞書に登録する必要がある。しかしながら、この手法は、より多くの複合語を辞書に登録するほど、本来は文境界が存在するはずの箇所で、文境界が存在しないと推定してしまう可能性を増大させる。 In addition, in the method of registering a compound word including a sentence ending symbol in a dictionary, in order to avoid presuming that a sentence boundary exists at a place where a sentence boundary should not exist originally, a compound word including a sentence ending symbol is used. It is necessary to register more words in the dictionary. However, as more compound words are registered in the dictionary, this method increases the possibility of estimating that a sentence boundary does not exist at a place where a sentence boundary should exist.
例えば、「Universal Studios(登録商標) Japan」を表現する複合語として、「U.S. Japan」という複合語が辞書に登録されていることを想定する。このとき、例えば、「We enjoyed ourselves a lot yesterday at the U.S. Japan.」という文章が入力されたとする。 For example, assume that a compound word “U.S. Japan” is registered in the dictionary as a compound word expressing “Universal Studios (registered trademark) Japan”. At this time, for example, it is assumed that a sentence “We enjoyed ourselves a lot yesterday at the U.S. Japan.” Is input.
この場合、この手法は、「U.S. Japan」という複合語が辞書に登録されていることにより、「U.S.」と「Japan」との間には文境界が存在しないと判断し、全体を一文として正しく認定できる。 In this case, this method determines that there is no sentence boundary between “US” and “Japan” because the compound word “US Japan” is registered in the dictionary, and corrects the whole as one sentence correctly. Can be certified.
しかし、文字列「U.S. Japan」は、必ずしも「Universal Studios Japan」を意味するとは限らない。例えば、「Canada is located next to the U.S. Japan is located next to China.」という文章が入力されたとする。この文章では、「U.S.」は「United States」を意味しており、「U.S.」と「Japan」との間に、文の境界が存在する。しかし、この手法は、辞書に「U.S. Japan」という複合語が登録されているため、「U.S.」と「Japan」との間に、文の境界は存在しないと判断してしまう。 However, the character string “U.S. Japan” does not necessarily mean “Universal Studios Japan”. For example, it is assumed that a sentence “Canada is located next to the U.S. Japan is located next to China” is input. In this sentence, “U.S.” means “United States”, and there is a sentence boundary between “U.S.” and “Japan”. However, in this method, since the compound word “U.S. Japan” is registered in the dictionary, it is determined that there is no sentence boundary between “U.S.” and “Japan”.
このように、文末記号を含む複合語を辞書に登録する手法は、辞書登録に手間がかかるだけでなく、複合語を登録した辞書を強化するほど、文境界の推定精度が落ちるという問題をかかえている。 As described above, the method of registering a compound word including a sentence ending symbol in the dictionary not only takes time to register the dictionary, but also has a problem that the estimation accuracy of the sentence boundary decreases as the dictionary in which the compound word is registered is strengthened. ing.
本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することを目的とする。 The present invention has been made to solve the above-described problems. That is, an object of the present invention is to provide a technique for estimating a sentence boundary more accurately while suppressing an increase in processing load and an increase in time required for dictionary registration.
本発明の文境界推定装置は、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書と、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、を備える。 The sentence boundary estimation apparatus of the present invention includes a first dictionary for storing a word string, a replacement source word string that is a word string including a sentence end symbol, and the sentence end symbol to represent the same meaning as the replacement source word string. A second dictionary that stores a replacement destination word string that is a word string that is represented in a correlated manner, and the replacement source word string in the original text based on the second dictionary, the replacement destination word string A text expansion unit that generates a post-replacement text that is replaced with, and a sentence boundary in the original text when the sentence boundary in the original text is estimated based on the post-replacement text and the first dictionary. If the text is within the replacement source word string replaced with the replacement destination word string included in the range matching the word string registered in the first dictionary, the end of the sentence And a sentence boundary estimation unit for estimating a non-sentence boundary immediately after the issue.
また、本発明の方法は、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する。 Further, the method of the present invention does not include the first dictionary for storing the word string, the replacement source word string that is a word string including a sentence end symbol, and the sentence end symbol so as to represent the same meaning as the replacement source word string. The replacement source word string in the original text is associated with the replacement destination based on the second dictionary using the second dictionary that is stored in association with the replacement destination word string that is the word string represented in When generating a replacement text replaced with a word string and estimating a sentence boundary in the original text based on the replacement text and the first dictionary, the sentence ending symbol in the original text is If it is inside the replacement source word string replaced with the replacement destination word string included in the range that matches the word string registered in the first dictionary, the sentence is immediately followed by the sentence It is estimated that not the world.
また、本発明のプログラムは、単語列を格納する第1辞書と、文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書とを用いて、前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、をコンピュータ装置に実行させる。 Further, the program of the present invention does not include the first dictionary for storing the word string, the replacement source word string that is a word string including a sentence end symbol, and the sentence end symbol so as to represent the same meaning as the replacement source word string. The replacement source word string in the original text is associated with the replacement destination based on the second dictionary using the second dictionary that is stored in association with the replacement destination word string that is the word string represented in A text expansion step for generating a post-substitution text replaced with a word string; and when estimating a sentence boundary in the original text based on the post-substitution text and the first dictionary, In the post-replacement text, the replacement source word string replaced by the replacement destination word string included in the range matching the word string registered in the first dictionary is included. If, to execute the sentence boundary detection step of estimating the non-text boundary immediately following the end of the sentence symbols, the computer device.
本発明は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定する技術を提供することができる。 The present invention can provide a technique for estimating a sentence boundary more accurately while suppressing an increase in processing load and an increase in time required for dictionary registration.
以下、本発明の実施の形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
(第1の実施の形態)
本発明の第1の実施の形態としての文境界推定装置1の機能ブロック構成を図1に示す。図1において、文境界推定装置1は、第1辞書11と、第2辞書12と、テキスト展開部13と、文境界推定部14とを備える。
(First embodiment)
FIG. 1 shows a functional block configuration of a sentence
ここで、文境界推定装置1は、図2に示すようなハードウェア要素によって構成可能である。図2において、文境界推定装置1は、CPU(Central Processing Unit)1001、メモリ1002、出力装置1003、および、入力装置1004を含む。メモリ1002は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)等によって構成される。出力装置1003は、ディスプレイ装置やプリンタ等のように、情報を出力する装置によって構成される。入力装置1004は、キーボードやマウス、OCR(Optical Character Reader)装置等のように、ユーザ操作や情報の入力を受け付ける装置によって構成される。この場合、文境界推定装置1の各機能ブロックは、メモリ1002に格納されるコンピュータ・プログラムを読み込んで実行するとともに出力装置1003、入力装置1004の各部を制御するCPU1001によって構成される。なお、文境界推定装置1およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
Here, the sentence
次に、各機能ブロックの詳細について説明する。 Next, details of each functional block will be described.
第1辞書11は、単語列を格納する。単語列とは、1つ以上の単語からなる意味のある文字列である。なお、複数の単語からなる単語列は、いわゆる複合語である。第1辞書11は、単独の単語や複合語等、対象分野において一般的に使用される単語列を格納している。特に、第1辞書11には、文末記号を含む単語列と同等の意味を表すよう文末記号を含まないで表された単語列そのものや、そのような単語列をさらに含む複合語が格納されていることが望ましい。ただし、第1辞書11は、そのような単語列だけでなく、その他の単語列を格納していてもよい。第1辞書11としては、対象分野における単独の単語だけでなく複合語も見出し語として含むような一般的な辞書を適用可能である。 The first dictionary 11 stores word strings. A word string is a meaningful character string consisting of one or more words. A word string made up of a plurality of words is a so-called compound word. The first dictionary 11 stores word strings that are generally used in the target field, such as single words and compound words. In particular, the first dictionary 11 stores a word string itself that does not include a sentence ending symbol so as to represent the same meaning as a word string that includes a sentence ending symbol, or a compound word that further includes such a word string. It is desirable that However, the first dictionary 11 may store not only such a word string but also other word strings. As the first dictionary 11, a general dictionary that includes not only a single word in the target field but also a compound word as a headword can be applied.
図3は、文境界を推定する対象として英文が想定される場合に、第1辞書11に格納される情報の一例である。ここでは、「United States」、「United States President」、「United States Senate」、「Post Office」、「Post Office Box」等の単語列が登録されている。これらは、文末記号を含む単語列「U.S.」や「P.O.」と同等の意味を表すよう文末記号を含まないで表された単語列「United States」や「Post Office」そのものまたはそのような単語列を含む複合語である。英文では、頭字語、省略形または短縮形等と呼ばれる、文末記号であるピリオドを含む単語が用いられることが多い。そこで、このように、第1辞書11には、ピリオドを含む頭字語、省略形または短縮形として表現され得るフルスペル表記の単語列そのものや、そのようなフルスペル表記の単語列をさらに含む複合語が格納されている。 FIG. 3 is an example of information stored in the first dictionary 11 when an English sentence is assumed as a target for estimating a sentence boundary. Here, word strings such as “United States”, “United States President”, “United States Senate”, “Post Office”, “Post Office Box” are registered. These are the word sequences "United States" and "Post Office" that are expressed without the end-of-word symbol to indicate the same meaning as the word sequences "US" and "PO" that include the end-of-word symbol, or such word strings. Is a compound word containing In English, words including a period, which is a sentence ending symbol, are often used, which are called acronyms, abbreviations or abbreviations. Thus, in this way, the first dictionary 11 includes an acronym including a period, a full spelling word string that can be expressed as an abbreviation or abbreviation, or a compound word further including such a full spelling word string. Stored.
なお、図3では、説明のため、第1辞書11の各エントリにIDを付与している。IDがXのエントリを、以降、ID:Xのエントリとも記載する。 In FIG. 3, an ID is assigned to each entry of the first dictionary 11 for the sake of explanation. Hereinafter, an entry whose ID is X is also referred to as an ID: X entry.
第2辞書12は、置換元単語列および置換先単語列を関連付けて格納する。置換元単語列とは、少なくとも1つの単語に文末記号が含まれる1つ以上の単語からなる意味のある文字列である。置換先単語列は、置換元単語列と同等の意味を表すよう、文末記号を含まずに表された1つ以上の単語からなる意味のある文字列である。
The
図4は、文境界を推定する対象として英文が想定される場合に、第2辞書12に格納される情報の一例である。ここでは、置換元単語列として「U.S.」というピリオドを含む省略形の単語に関連付けて、その省略形をスペルアウトしたフルスペル表記である「United States」という置換先単語列が格納されている。また、置換元単語列として「P.O.」というピリオドを含む省略形の単語に関連付けて、その省略形のフルスペル表記である「Post Office」という置換先単語列が格納されている。
FIG. 4 is an example of information stored in the
この例のように、第2辞書12は、文末記号を含んで表現される最小単位の単語列(例えば、「U.S.」)を置換元単語列とするエントリを少なくとも格納すればよい。つまり、第2辞書12は、そのような置換元単語列をさらに含む複合語(例えば、「U.S. President」)を置換元単語列とするエントリを格納しなくてもよい。
As in this example, the
なお、図4では、説明のため、第2辞書12の各エントリにIDを付与している。IDがXのエントリを、以降、ID:Xのエントリとも記載する。
In FIG. 4, an ID is assigned to each entry of the
テキスト展開部13は、第2辞書12に基づいて、オリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストを生成する。
Based on the
なお、テキスト展開部13は、入力装置1004を介して入力されるテキストを、オリジナルテキストとして取得してもよい。あるいは、テキスト展開部13は、メモリ1002に格納されたテキストを、オリジナルテキストとして取得してもよい。また、この場合、テキスト展開部13は、対象となるテキストのメモリ1002における格納位置を表す情報を、入力装置1004を介して取得してもよい。また、テキスト展開部13は、ネットワークを介して接続された装置から入力されるテキストを、オリジナルテキストとして取得してもよい。その他、テキスト展開部13は、可搬型記憶媒体に記憶されたテキストを、オリジナルテキストとして取得してもよい。
Note that the
文境界推定部14は、置換後テキストおよび第1辞書11に基づいて、オリジナルテキストにおける文境界を推定する。このとき、文境界推定部14は、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合、その文末記号の直後は文境界でないと推定する。
The sentence
具体的には、例えば、文境界推定部14は、置換後テキストにおいて第1辞書11に登録されている単語列にマッチする範囲を検出しておく。そして、文境界推定部14は、次の条件3および4がいずれも満たされる場合に、その直後が文境界でないと判断すればよい。
・条件3:オリジナルテキストにおける文末記号が、置換された置換元単語列に含まれる。
・条件4:置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第1辞書11に登録された単語列にマッチする範囲に含まれる。
Specifically, for example, the sentence
Condition 3: The sentence end symbol in the original text is included in the replaced source word string.
Condition 4: The replacement destination word string replaced from the replacement source word string in the post-substitution text is included in a range that matches the word string registered in the first dictionary 11 previously detected.
なお、文境界推定部14は、オリジナルテキストにおける文末記号が、上記条件3および4のいずれか1つでも満たさない場合は、通常の文境界の推定処理を行う。通常の文境界の推定処理には、公知の技術を適用してもよい。
Note that the sentence
ただし、文境界推定部14は、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書11の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にあっても、次の場合には、その直後が文境界でないとの判断を保留する。その場合とは、次の条件5および6がいずれも満たされる場合である。
・条件5:該当する文末記号が、オリジナルテキストにおいて、置換された置換元単語列の末尾の文字である。
・条件6:置換後テキストにおいて、その置換元単語列から置換された置換先単語列の末尾の単語と、その置換先単語列を含む第1辞書11の単語列にマッチする範囲の末尾の単語とが一致する。
However, the sentence
Condition 5: The corresponding sentence ending symbol is the last character of the replacement source word string replaced in the original text.
Condition 6: In the post-substitution text, the last word in the replacement destination word string replaced from the replacement source word string and the last word in the range matching the word string in the first dictionary 11 including the replacement destination word string Matches.
この場合、文境界推定部14は、通常の文境界の推定処理によって、その文末記号の直後における文境界の有無を推定すればよい。
In this case, the sentence
以上のように構成された文境界推定装置1の動作を、図5を参照して説明する。
The operation of the sentence
図5では、まず、テキスト展開部13は、オリジナルテキストを取得する(ステップS1)。
In FIG. 5, first, the
次に、テキスト展開部13は、第2辞書12を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部13は、検索した置換元単語列に一致する文字列を、関連付けられた置換先単語列に置換することにより、置換後テキストを生成する(ステップS2)。
Next, the
ここで、オリジナルテキストにおけるある文字列について、適用可能な複数の置換元単語列のエントリが、第2辞書12にあるとする。この場合、テキスト展開部13は、その箇所をそれぞれの置換先単語列で置換することにより、複数の置換後テキストを生成してもよい。適用可能な複数の置換元単語列があるケースとしては、例えば、次のようないくつかのケースが考えられる。1つ目は、同一の置換元単語列について、異なる置換先単語列が関連付けられた複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列に対して「United States」を置換先単語列として関連付けたエントリと、「Universal Studios」を置換先単語列として関連付けたエントリとがある場合等である。2つ目は、文字列として包含関係にある異なる置換元単語列に関する複数のエントリがあるケースである。例えば、「U.S.」という置換元単語列のエントリと、「U.S. Japan」という置換元単語列のエントリがある場合等である。
Here, it is assumed that there are entries of a plurality of applicable replacement source word strings in the
次に、文境界推定部14は、置換後テキストにおいて、第1辞書11に登録された単語列にマッチする文字列を検出し、その範囲を記録する(ステップS3)。
Next, the sentence
次に、文境界推定部14は、オリジナルテキスト中の各文末記号に対して、その直後に文境界の有無を判断するステップS4〜S6の処理を実行する。
Next, the sentence
ここでは、文境界推定部14は、当該文末記号が、オリジナルテキストにおいて置換された置換元単語列の一部である場合、さらに次の判断を行う。この場合、文境界推定部14は、置換後テキストにおいてその置換元単語列から置換された置換先単語列が、先に検出しておいた第1辞書11に登録済みの単語列にマッチする範囲に含まれるか否かを判断する(ステップS4)。
Here, the sentence
ただし、文境界推定部14は、該当する置換先単語列が第1辞書11に登録済みの単語列にマッチする範囲に含まれる場合でも、次のケースには、ステップS4の判断結果をNoとする。そのようなケースとは、この文末記号が、置換元単語列の末尾の文字であり、かつ、置換先単語列の最後の単語と、置換先単語列を含む第1辞書11に登録済みの単語列にマッチする範囲の最後の単語とが一致する場合である。
However, even when the corresponding replacement destination word string is included in the range matching the word string already registered in the first dictionary 11, the sentence
また、ステップS2において複数の置換後テキストが生成されている場合、文境界推定部14は、ステップS4における判断処理を、各々の置換後テキストを対象として実施してもよい。そして、この場合、文境界推定部14は、少なくとも1つの置換後テキストにおいての判断結果がYesとなった場合は、ステップS4全体としての判断結果をYesとしてもよい。一方、文境界推定部14は、全ての置換後テキストでの判断結果がNoとなった場合は、ステップS4全体としての判断結果をNoとしてもよい。
When a plurality of post-substitution texts are generated in step S2, the sentence
ここで、ステップS4でYesとなった場合について説明する。この場合、文境界推定部14は、オリジナルテキストにおいてこの文末記号の直後に文境界は無いと判断する(ステップS5)。
Here, the case where it becomes Yes at step S4 is demonstrated. In this case, the sentence
一方、ステップS4でNoとなった場合について説明する。この場合、文境界推定部14は、この文末記号について通常の文境界の推定処理を実行することにより、その直後における文境界の有無を推定する(ステップS6)。
On the other hand, the case where it becomes No at step S4 is demonstrated. In this case, the sentence
前述のように、通常の文境界の推定処理には、公知の技術を適用してもよい。例えば、通常の文境界の推定処理としては、背景技術で説明した条件1および条件2を共に満たす場合に、その直後に文境界があると判断する処理を適用してもよい。
As described above, a known technique may be applied to normal sentence boundary estimation processing. For example, as a normal sentence boundary estimation process, when both
ステップS4〜S6の処理を、オリジナルテキストにおける全ての文末記号について完了すると、文境界推定部14は、推定した文境界の位置を表す情報を出力する(ステップS7)。
When the processes in steps S4 to S6 are completed for all the end-of-sentence symbols in the original text, the sentence
以上で、文境界推定部14は、動作を終了する。
Thus, the sentence
次に、文境界推定装置1の動作を具体例で示す。ここでは、オリジナルテキストは英文であり、文末記号はピリオドである。また、第1辞書11および第2辞書12には、それぞれ、図3および図4に示した情報が格納されているものとする。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。
Next, the operation of the sentence
まず、テキスト展開部13は、図6に示すオリジナルテキストを取得したとする(ステップS1)。
First, it is assumed that the
次に、テキスト展開部13は、第2辞書12を参照することにより、図6に示すように、オリジナルテキストから置換後テキストを生成する(ステップS2)。
Next, the
ここで、図6のオリジナルテキストにおいて、下線部は、置換元単語列の部分を示している。すなわち、このオリジナルテキストには、図4に示した第2辞書12におけるID:1の置換元単語列「U.S.」が、2箇所に出現している。この置換元単語列の出現位置は、オリジナルテキストの3単語目および10単語目である。テキスト展開部13は、これらの2箇所の「U.S.」を、第2辞書12において関連付けられた置換先単語列である「United States」に置換する。
Here, in the original text of FIG. 6, the underlined portion indicates a replacement source word string portion. That is, in this original text, the replacement source word string “U.S.” of ID: 1 in the
図6の置換後テキストにおいて、二重下線部は、オリジナルテキストの置換元単語列から置換された置換先単語列の部分を示している。1つ目の「United States」は、置換後テキストの3〜4単語目に位置し、2つ目の「United States」は、置換後テキストの11〜12単語目に位置している。 In the post-replacement text of FIG. 6, the double underline indicates the part of the replacement destination word string that is replaced from the replacement source word string of the original text. The first “United States” is located at the 3rd to 4th words of the replacement text, and the second “United States” is located at the 11th to 12th words of the replacement text.
次に、文境界推定部14は、置換後テキストにおいて、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図6では、破線の矩形で囲んだ部分が、第1辞書11に登録された単語列にマッチする範囲を示している。1つ目の3〜5単語目は、第1辞書11におけるID:2の単語列「United States President」にマッチする範囲である。2つ目の11〜13単語目は、第1辞書11におけるID:3の単語列「United States Senate」にマッチする範囲である。
Next, the sentence
次に、文境界推定部14は、オリジナルテキストの文末記号の各々に対して、当該文末記号の直後が文境界であるか否かの判断を繰り返す。
Next, the sentence
まず、文境界推定部14は、オリジナルテキストにおける1つ目のピリオドとして、3単語目の「U.S.」のUの直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された3単語目の置換元単語列「U.S.」に含まれている。また、この置換元単語列は、置換後テキストにおける3〜4単語目の置換先単語列「United States」に置換されている。さらに、置換後テキストにおいて、3〜5単語目は、第1辞書11に登録されたID:2の単語列「United States President」にマッチしている。
First, the sentence
つまり、注目しているピリオドは、「置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部」に存在する。また、当該ピリオドは、置換元単語列の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。
That is, the period of interest exists in “the inside of the replacement source word string replaced with the replacement destination word string included in the range matching the word string registered in the first dictionary 11 in the replaced text”. The period is not the last character of the replacement source word string. Thereby, about this period, the judgment result of step S4 by the sentence
そこで、文境界推定部14は、1つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
Therefore, the sentence
次に、文境界推定部14は、オリジナルテキストにおける2つ目のピリオドとして、3単語目の「U.S.」のSの直後のピリオドに注目する。このピリオドも、1つ目のピリオドと同様に、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲「United States President」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、このピリオドは、置換元単語列「U.S.」の末尾の文字であるが、置換先単語列の最後の単語「States」は、第1辞書11に登録された単語列にマッチする範囲の最後の単語「President」とは異なる。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。
Next, the sentence
そこで、文境界推定部14は、2つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
Therefore, the sentence
同様に、文境界推定部14は、オリジナルテキストにおける3〜4番目のピリオドとして、10単語目の「U.S.」の中の2つのピリオドにそれぞれ注目する。これらのピリオドは、置換後テキストにおいて第1辞書11に登録された単語列にマッチする範囲「United States Senate」に含まれる置換先単語列「United States」に置換された置換元単語列「U.S.」の内部」に存在する。また、これらのピリオドは、それぞれ、置換元単語列の末尾の文字ではないか、または、置換先単語列の最後の単語「States」が、第1辞書11に登録された単語列にマッチする範囲の最後の単語「Senate」とは異なる。そこで、これらのピリオドについて、文境界推定部14によるステップS4の判断結果は、それぞれYesとなる。
Similarly, the sentence
そこで、文境界推定部14は、これらの3〜4つ目のピリオドの直後は、それぞれ文境界でないと判断する。
Therefore, the sentence
次に、文境界推定部14は、オリジナルテキストにおける5つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
Next, the sentence
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。
Therefore, the sentence
ここでは、文境界推定部14は、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件1および2を共に満たす場合に、その直後に文境界があると判断するものとする。この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「The」が大文字で始まっているため、条件2を満たす。そこで、文境界推定部14は、5つ目のピリオドの直後に文境界が存在すると判断する。
Here, the sentence
次に、文境界推定部14は、オリジナルテキストにおける6つ目のピリオドとして、「everyone」の直後のピリオドに注目する。このピリオドは、テキスト展開部13によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
Next, the sentence
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。この「everyone」の直後のピリオドは、その直後に文字も単語も存在しないため、条件1および条件2を共に満たす。そこで、文境界推定部14は、6つ目のピリオドの直後に文境界が存在すると判断する。
Therefore, the sentence
そして、文境界推定部14は、図6に示すように、推定結果を表す情報を出力する。図6では、オリジナルテキストにおいて文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果を表す情報として出力している。つまり、オリジナルテキストにおいて、「yesterday」の次のピリオドの直後の位置、および、「everyone」の次のピリオドの直後の位置に、文境界が存在することが推定されている。
And the sentence
次に、本発明の第1の実施の形態の効果について述べる。 Next, effects of the first exemplary embodiment of the present invention will be described.
本発明の第1の実施の形態としての文境界推定装置は、処理負荷の増大および辞書登録にかかる手間の増大を抑えながら、より精度よく文の境界を推定することができる。 The sentence boundary estimation apparatus according to the first exemplary embodiment of the present invention can estimate sentence boundaries more accurately while suppressing an increase in processing load and an increase in labor for dictionary registration.
その理由について説明する。本実施の形態では、第1辞書が単語列を格納している。また、第2辞書が、文末記号を含む単語列である置換元単語列、および、置換元単語列と同等の意味を表すよう文末記号を含まずに表された単語列である置換先単語列を関連付けて記憶している。そして、テキスト展開部が、入力されたオリジナルテキストにおける置換元単語列を、関連付けられた置換先単語列に置換した置換後テキストに展開する。そして、文境界推定部が、置換後テキストおよび第1辞書に基づいてオリジナルテキストにおける文境界を推定する。このとき、文境界推定部が、オリジナルテキストの文末記号が、置換後テキストにおいて第1辞書の単語列にマッチする範囲に含まれる置換先単語列に置換された置換元単語列の内部にある場合には、その文末記号の直後は文境界でないと推定するからである。 The reason will be described. In the present embodiment, the first dictionary stores word strings. Further, the second dictionary is a replacement source word string that is a word string including a sentence ending symbol, and a replacement destination word string that is a word string that is expressed without including a sentence ending symbol so as to represent the same meaning as the replacement source word string. Are stored in association with each other. Then, the text expansion unit expands the replacement source word string in the input original text into a post-replacement text that is replaced with the associated replacement destination word string. Then, the sentence boundary estimation unit estimates the sentence boundary in the original text based on the replaced text and the first dictionary. At this time, when the sentence boundary estimation unit is within the replacement source word string replaced with the replacement destination word string included in the range matching the word string of the first dictionary in the replacement text, the sentence ending symbol of the original text This is because it is estimated that the sentence boundary is not immediately after the sentence end symbol.
このように、本実施の形態は、文末記号を含む単語列についてその内部または直後に文境界があると推定されたくない場合、文末記号を含むその単語列をさらに含む様々な複合語を辞書に登録しておく必要がない。本実施の形態は、文末記号を含むその単語列と、同等の意味を表す文末記号を含まない単語列とを関連付けて第2辞書に登録しておき、文末記号を含まない表記の複合語を第1辞書に登録しておけばよい。したがって、本実施の形態は、辞書登録の手間を大幅に削減する。また、本実施の形態は、そのような第1辞書および第2辞書に基づいて文境界を推定するので、各単語について品詞推定処理等の高負荷な処理を必要としない。 As described above, in this embodiment, when it is not desired to estimate that there is a sentence boundary inside or immediately after a word string including a sentence end symbol, various compound words further including the word string including the sentence end symbol are stored in the dictionary. There is no need to register. In the present embodiment, the word string including the sentence ending symbol and the word string not including the sentence ending symbol representing the equivalent meaning are associated and registered in the second dictionary, and a compound word having a notation not including the sentence ending symbol is registered. It only has to be registered in the first dictionary. Therefore, the present embodiment greatly reduces the trouble of dictionary registration. Moreover, since this embodiment estimates sentence boundaries based on such first and second dictionaries, high-load processing such as part-of-speech estimation processing is not required for each word.
このような本実施の形態の効果について、上述した具体例を用いて具体的に説明する。 The effect of this embodiment will be specifically described using the above-described specific example.
上述の具体例では、オリジナルテキスト中の2か所に現れる「U.S.」におけるSの直後のピリオドは、直後が空白文字であり、直後の単語(「President」および「Senate」)が大文字で始まる。つまり、一般的な技術を適用した通常の文境界の推定処理だけでは、条件1および2が満たされることになる。このため、本実施の形態を用いない場合、これらのピリオドは、その直後に本来は文境界が存在しないにも関わらず、存在すると認定されてしまう。
In the specific example described above, the period immediately after S in “U.S.” appearing in two places in the original text is immediately followed by a blank character, and the immediately following words (“President” and “Senate”) begin with a capital letter. That is, the
ここで、一般的な技術を適用した通常の文境界の推定処理でこれを防ぐためには、「U.S. President」「U.S. Senate」を単語列として辞書に登録しておく必要がある。また、「United States」を含む別の複合語(例えば「United States Ministry of Defense」)があり、その内部に文境界があると推定されたくない場合、一部を頭字語表記とした「U.S. Ministry of Defense」も合わせて辞書に登録しておく必要がある。このように、文末記号を含む単語列をさらに含む複合語は、膨大な数となることが多く、それらを全て辞書に登録するのに大変手間がかかる。 Here, in order to prevent this in a normal sentence boundary estimation process to which a general technique is applied, it is necessary to register “U.S. President” and “U.S. Senate” in the dictionary as word strings. Also, if you have another compound word that includes “United States” (for example, “United States Ministry of Defense”) and you do not want to infer that there is a sentence boundary, of Defense "must also be registered in the dictionary. As described above, there are many enormous numbers of compound words that further include a word string including a sentence ending symbol, and it is very troublesome to register them all in the dictionary.
これに対して、本実施の形態の具体例は、「U.S. President」「U.S. Senate」といった、文末記号を含む単語をさらに含む複合語を、いずれの辞書にも登録しなくてよい。本実施の形態は、これらをスペルアウトした単語列「United States President」および「United States Senate」を第1辞書に登録すればよい。また、本実施の形態は、文末記号を含む単語「U.S.」およびそれをスペルアウトした単語列「United States」を関連付けて第2辞書に登録すればよい。つまり、本実施の形態は、「United States」を含む別の複合語(例えば「United States Ministry of Defense」)があり、その内部に文境界があると推定したくない場合にも、第2辞書への登録を増やす必要はない。この場合、本実施の形態は、スペルアウトした正書法である単語列「United States Ministry of Defense」を第1辞書に登録しておけばよい。 On the other hand, in the specific example of the present embodiment, a compound word that further includes a word including a sentence ending symbol such as “U.S. President” and “U.S. Senate” may not be registered in any dictionary. In the present embodiment, the word strings “United States President” and “United States Senate” spelled out may be registered in the first dictionary. Further, in the present embodiment, the word “U.S.” including the sentence ending symbol and the word string “United States” spelled out thereof may be associated and registered in the second dictionary. That is, the present embodiment also includes the second dictionary even when there is another compound word including “United States” (for example, “United States Ministry of Defense”) and it is not desired to estimate that there is a sentence boundary inside. There is no need to increase registrations. In this case, in the present embodiment, the word string “United States Ministry of Defense”, which is a spelled out spelling method, may be registered in the first dictionary.
このように、本実施の形態は、内部に文境界があると推定されることを避けたい複合語について、文末記号を含む表記を全て辞書登録しておく必要がない。本実施の形態は、文末記号を含む頭字語等の表記と、そのスペルアウト表記との関連付けを1つ、第2辞書に登録しておけば、その他は、スペルアウトした複合語のみを第1辞書に登録すればよい。 As described above, in this embodiment, it is not necessary to register all notations including sentence ending symbols in a dictionary for a compound word that it is desired to avoid having a sentence boundary inside. In this embodiment, if one association between an acronym including a sentence ending symbol and its spell-out notation is registered in the second dictionary, only the spelled-out compound word is the first. Just register it in the dictionary.
これにより、本実施の形態は、品詞推定処理等の負荷の高い処理を必要とせず、かつ、辞書登録にかかる手間を抑えながら、より精度よく文境界を推定することができる。 As a result, this embodiment can estimate sentence boundaries more accurately without requiring high-load processing such as part-of-speech estimation processing and reducing the effort required for dictionary registration.
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described in detail with reference to the drawings. Note that, in each drawing referred to in the description of the present embodiment, the same reference numerals are given to the same configuration and steps that operate in the same manner as in the first embodiment of the present invention, and the detailed description in the present embodiment. Description is omitted.
まず、本発明の第2の実施の形態としての文境界推定装置2の構成を図7に示す。図7において、文境界推定装置2は、本発明の第1の実施の形態としての文境界推定装置1に対して、第2辞書12に替えて第2辞書22と、テキスト展開部13に替えてテキスト展開部23とを備え、さらに、置換先単語列検出部25を備える点が異なる。なお、文境界推定装置2およびその各機能ブロックは、図2を参照して説明した本発明の第1の実施の形態と同様のハードウェア要素によって構成可能である。ただし、文境界推定装置2およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
First, the structure of the sentence
第2辞書22は、置換元単語列に対して、置換先単語列に加えて出現制約の有無を表す情報を関連付けて記憶している。つまり、第2辞書22の各エントリには、置換元単語列、置換先単語列、および、出現制約の有無を表す情報が含まれる。以下、出現制約が有る(または無い)ことを表す情報を含むエントリや、そのエントリに含まれる置換元単語列または置換先単語列を、単に、出現制約が有り(または無し)となっているエントリ、置換元単語列または置換先単語列とも記載する。
The
置換先単語列検出部25は、第2辞書22において、出現制約が有りとなっている各置換先単語列について、オリジナルテキストに含まれるか否かを判定する。
The replacement-destination word
テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについては、関連付けられた置換先単語列がオリジナルテキストに含まれている場合に、その置換先単語列への置換処理を実行する。また、テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が有るものについて、関連付けられた置換先単語列がオリジナルテキストに含まれていない場合には、その置換先単語列への置換処理を実行しない。また、テキスト展開部23は、オリジナルテキストに出現する置換元単語列のうち、出現制約が無いものについては、関連付けられた置換先単語列がオリジナルテキストに出現しているか否かに関わらず、その置換先単語列への置換処理を実行する。
The
なお、置換先単語列検出部25による判定処理の際に、オリジナルテキストにおいて置換先単語列が出現する位置については、特に制約はない。例えば、置換先単語列の出現位置は、その置換先単語列に関連付けられた置換元単語列の出現位置と同じ文中または同じ段落中に出現していてもよいし、異なる文中または異なる段落中に出現していてもよい。
In addition, there is no restriction | limiting in particular about the position where a replacement destination word sequence appears in an original text in the determination process by the replacement destination word
なお、英文等では、一般に、頭字語等の省略形には曖昧性があり、その省略形に対応する複合語(フルスペル表記の単語列)が、複数存在することが多い。そのため、頭字語等の省略形は、高頻度で使われる一部の省略形を除き、最初の出現箇所において省略形でないフルスペル表記と併記されることが多い。例えば、初出の箇所ではフルスペル語が記載され、その直後に括弧書き等で省略形が記載される。このように、英文では、当該の省略形がどのような単語列に対応しているかを示すことが、各種のスタイルガイド等で推奨されている。このやり方に従えば、人間がテキストを読む際には、省略形が何を意味するのかが容易に理解される。テキスト展開部23は、このような事情に鑑み、頭字語等の省略形としての置換先単語列をそのフルスペル表記である置換元単語列に置換するにあたり、置換先単語列検出部25による判定結果に基づいて、置換処理を行う。
In English, etc., abbreviations such as acronyms are generally ambiguous, and there are often a plurality of compound words (full spelling word strings) corresponding to the abbreviations. For this reason, abbreviations such as acronyms are often written together with full spellings that are not abbreviations at the first occurrence, except for some abbreviations that are frequently used. For example, a full spell word is described in the first appearance, and an abbreviation is written immediately after that in parentheses. As described above, in English, it is recommended by various style guides and the like to indicate what word string the abbreviation corresponds to. By following this approach, it is easy to understand what abbreviations mean when humans read text. In view of such circumstances, the
つまり、オリジナルテキストが英文である場合、置換元単語列として頭字語等の省略形が第2辞書22に格納され、置換先単語列としてフルスペル表記の単語列が格納されている。この場合、テキスト展開部23は、オリジナルテキストにおいて頭字語をフルスペル表記の単語列で置換するのは、そのフルスペル表記の単語列がオリジナルテキストのどこかに出現している場合に限ることになる。一方、テキスト展開部23は、フルスペル表記の単語列がオリジナルテキストのどこにも出現していない頭字語は、フルスペル表記に置換しない。
That is, when the original text is English, an abbreviation such as an acronym is stored in the
以上のように構成された文境界推定装置2の動作について、図8を参照して説明する。
The operation of the sentence
図8では、まず、テキスト展開部23は、本発明の第1の実施の形態と同様にステップS1を実行し、オリジナルテキストを取得する。
In FIG. 8, first, the
次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキストに出現しているか否かを判定する(ステップS21)。
Next, the replacement-destination word
次に、テキスト展開部23は、第2辞書22を参照して、オリジナルテキストにおいて置換元単語列に一致する文字列を検索する。そして、テキスト展開部23は、検索した置換元単語列に一致する文字列を、置換先単語列に置換することにより、置換後テキストを生成する。ただし、このとき、テキスト展開部23は、第2辞書22において出現制約が有りとなっている置換元単語列については、関連付けられた置換先単語列がステップS21において検出されていた場合に、置換先単語列への置換処理を行う。また、この場合、テキスト展開部23は、関連付けられた置換先単語列がステップS21において検出されなかった場合には、置換処理を行わない(ステップS22)。
Next, the
以降、文境界推定装置2は、ステップS3〜S7まで、本発明の第1の実施の形態と同様に動作する。
Thereafter, the sentence
以上で、文境界推定装置2は、動作を終了する。
Thus, the sentence
次に、本発明の第2の実施の形態の動作を具体例で示す。ここでは、オリジナルテキストが英文であり、文末記号はピリオドである。また、各機能ブロックは、テキストにおける空白を単語の境界として認識するものとする。また、第1辞書11には、図9に示す情報が格納されているものとする。また、第2辞書22には、図10に示す情報が格納されているものとする。
Next, the operation of the second exemplary embodiment of the present invention will be shown as a specific example. Here, the original text is English, and the sentence ending symbol is a period. Each functional block recognizes a blank in the text as a word boundary. Further, it is assumed that the information shown in FIG. 9 is stored in the first dictionary 11. Further, it is assumed that the information shown in FIG. 10 is stored in the
図10に示すように、第2辞書22は、置換元単語列および置換先単語列に加えて、出現制約の有無を示す情報を格納している。例えば、「U.S.」を置換元単語列とし、「Universal Studios」を置換先単語列とするエントリ(ID:3)は、出現制約として「有り」を表す情報を含んでいる。前述したように、出現制約が有りとなっているエントリについては、テキスト展開部23による置換処理には、置換先単語列検出部25により置換先単語列がオリジナルテキストに出現したことが検出済みであることが条件となる。また、「U.S.」を置換元単語列とし、「United States」を置換先単語列とするエントリ(ID:1)は、出現制約として「無し」を表す情報を含んでいる。前述したように、出現制約が無しとなっているエントリについては、オリジナルテキストにおける置換先単語列の有無に関わらず、テキスト展開部23による置換処理が実施される。
As shown in FIG. 10, the
例えば、「United States」の省略形としての「U.S.」は、使用頻度が非常に高く、必ずしも「U.S.」が「United States」の省略形であることを別途明示せずに単独で使用されることが多い。このため、第2辞書22におけるこの省略形に関するエントリでは、出現制約が無しとなっている。同様に、「Post Office」の省略形としての「P.O.」も、特に明示されることなく使用されることが多い。このため、第2辞書22におけるこの省略形に関するエントリでも、出現制約が無しとなっている。
For example, “US” as an abbreviation for “United States” is very frequently used and should not be used alone without explicitly indicating that “US” is an abbreviation for “United States”. There are many. For this reason, in the entry related to this abbreviation in the
このような前提において、2つの具体例について説明する。 Based on this assumption, two specific examples will be described.
<具体例1>
この具体例では、まず、テキスト展開部23は、図11に示すオリジナルテキスト1を取得したとする(ステップS1)。
<Specific Example 1>
In this specific example, first, it is assumed that the
次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト1に出現するか否かを判定する(ステップS21)。
Next, the replacement-destination word
ここでは、図10に示したエントリのうち、ID:3のエントリにおいて、出現制約が有りとなっている。ここで、ID:3のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト1に出現していない。そこで、置換先単語列検出部25は、ID:3のエントリの置換先単語列について、「オリジナルテキスト1に出現していない」と判定する。
Here, of the entries shown in FIG. 10, the entry of ID: 3 has an appearance restriction. Here, the replacement destination word string “Universal Studios” of the entry of ID: 3 does not appear in the
次に、テキスト展開部23は、第2辞書22を参照することにより、図11に示すように、オリジナルテキスト1から置換後テキスト1を生成する(ステップS2)。
Next, the
ここで、第2辞書22のID:1のエントリの置換元単語列「U.S.」は、オリジナルテキスト1の7単語目とマッチする。図11のオリジナルテキスト1では、下線部が、置換元単語列の部分を表している。また、このエントリは出現制約が「無し」である。そこで、テキスト展開部23は、オリジナルテキスト1の7単語目を、置換先単語列「United States」で置換する処理を行う。また、第2辞書22のID:3のエントリの置換元単語列「U.S.」も、オリジナルテキスト1の7単語目とマッチする。しかしながら、このエントリは出現制約が「有り」であり、置換先単語列検出部25による判定結果が「出現しない」となっている。そこで、テキスト展開部23は、このエントリに基づく置換処理を行わない。その結果、図11に示す置換後テキスト1が生成される。図11の置換後テキスト1において、二重下線部は、オリジナルテキスト1の置換元単語列から置換された置換先単語列の部分を示している。
Here, the replacement source word string “U.S.” of the entry of ID: 1 in the
次に、文境界推定部14は、置換後テキスト1において、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図11の置換後テキスト1では、破線の矩形で囲んだ部分は、図9の第1辞書11に登録された単語列にマッチする範囲を示している。ここでは、7〜8単語目が、第1辞書11におけるID:1の単語列「United States」にマッチする範囲である。
Next, the sentence
次に、文境界推定部14は、オリジナルテキスト1の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。
Next, the sentence
まず、文境界推定部14は、オリジナルテキスト1における1つ目のピリオドとして、単語「U.S.」のUの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部23により置換後テキスト1における7〜8単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト1において、7〜8単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Yesとなる。
First, the sentence
そこで、文境界推定部14は、1つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
Therefore, the sentence
次に、文境界推定部14は、オリジナルテキスト1における2つ目のピリオドとして、単語「U.S.」のSの直後のピリオドに注目する。このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、テキスト展開部23により置換後テキスト1における7〜8単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト1において、7〜8単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。しかしながら、このピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト1における置換先単語列「United States」の末尾の単語(8単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲の末尾の単語(8単語目)とが一致する。これにより、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
Next, the sentence
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、文境界推定部14は、本発明の第1の実施の形態における具体例と同様に、通常の文境界の推定処理として、該当するピリオドが、背景技術で説明した条件1および2を共に満たす場合に、その直後に文境界があると判断するものとする。ここで、このピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「Japan」が大文字で始まるため、条件2を満たす。そこで、文境界推定部14は、2つ目のピリオドの直後に文境界が存在すると判断する。
Therefore, the sentence
次に、文境界推定部14は、オリジナルテキスト1における3つ目のピリオドとして、「China」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
Next, the sentence
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件1および条件2を共に満たす。そこで、文境界推定部14は、3つ目のピリオドの直後に文境界が存在すると判断する。
Therefore, the sentence
そして、文境界推定部14は、図11に示すように、オリジナルテキスト1に関する文境界の推定結果1を表す情報を出力する。図11では、オリジナルテキスト1において文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果1を表す情報として出力している。つまり、オリジナルテキスト1において、「U.S.」のSの次のピリオドの直後の位置、および、「China」の次のピリオドの直後の位置に、文境界が存在することが推定されている。
Then, as shown in FIG. 11, the sentence
以上で、文境界推定装置2は、オリジナルテキスト1に関する文境界の推定動作を終了する。
Thus, the sentence
<具体例2>
この具体例では、まず、テキスト展開部23は、図12に示すオリジナルテキスト2を取得したとする(ステップS1)。
<Specific example 2>
In this specific example, first, it is assumed that the
次に、置換先単語列検出部25は、第2辞書22において出現制約が有りとなっている各置換先単語列について、オリジナルテキスト2に出現するか否かを判定する(ステップS21)。
Next, the replacement-destination word
ここでは、出願制約が「有り」となっているID:3のエントリの置換先単語列「Universal Studios」は、オリジナルテキスト2の2〜3単語目に出現している。図12のオリジナルテキスト2では、一点鎖線の矩形で囲んだ部分は、出現制約が有りの置換先単語列を示している。そこで、置換先単語列検出部25は、ID:3のエントリの置換先単語列について、「オリジナルテキスト2に出現している」と判定する。
Here, the replacement destination word string “Universal Studios” of the entry of ID: 3 whose application restriction is “Yes” appears in the second to third words of the
次に、テキスト展開部23は、第2辞書22を参照することにより、オリジナルテキスト2から置換後テキストを生成する(ステップS2)。
Next, the
ここで、第2辞書22のID:1のエントリの置換元単語列「U.S.」は、オリジナルテキスト2の20単語目とマッチする。図12のオリジナルテキスト2では、下線部が、置換元単語列の部分を示している。また、このエントリは、出現制約が「無し」である。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目を置換先単語列「United States」で置換する処理を行う。これにより、図12の置換後テキスト2−1が生成される。
Here, the replacement source word string “U.S.” of the entry of ID: 1 in the
また、第2辞書22のID:3のエントリの置換元単語列「U.S.」は、オリジナルテキスト2の20単語目とマッチする。また、このエントリは、出現制約が「有り」である。さらに、このエントリの置換先単語列「Universal Studios」は、オリジナルテキスト2に出現している。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目をこのエントリに基づき置換する処理を行う。ただし、該当する置換元単語列「U.S.」は、先ほど置換後テキスト2−1を生成した際に置換を実行した置換元単語列と同一の位置にある。そこで、テキスト展開部23は、オリジナルテキスト2の20単語目をこのエントリの置換先単語列「Universal Studios」で置換する処理を行い、置換後テキスト2−1とは異なる置換後テキスト2−2を生成する。これにより、図12の置換後テキスト2−2が生成される。
Further, the replacement source word string “U.S.” of the entry of ID: 3 in the
なお、図12に示す置換後テキスト2−1および2−2において、二重下線部は、オリジナルテキスト2の置換元単語列から置換された置換先単語列の部分を示している。 Note that, in the post-replacement texts 2-1 and 2-2 shown in FIG.
次に、文境界推定部14は、置換後テキスト2−1および2−2において、第1辞書11に登録された単語列にマッチする範囲を検出する(ステップS3)。図12の置換後テキスト2−1および2−2では、破線の矩形で囲んだ部分は、第1辞書11に登録された単語列にマッチする範囲を示している。
Next, the sentence
ここでは、置換後テキスト2−1において、2〜3単語目が、第1辞書11におけるID:6の単語列「Universal Studios」にマッチする範囲である。また、20〜21単語目が、第1辞書11におけるID:1の単語列「United States」にマッチする範囲である。 Here, in the post-replacement text 2-1, the second to third words are ranges that match the word string “Universal Studios” with ID: 6 in the first dictionary 11. Also, the 20th to 21st words are a range that matches the word string “United States” of ID: 1 in the first dictionary 11.
また、置換後テキスト2−2において、2〜3単語目が、第1辞書11におけるID:6の単語列「Universal Studios」にマッチする範囲である。また、20〜22単語目が、ID:7の単語列「Universal Studios Japan」にマッチする範囲である。 Further, in the post-replacement text 2-2, the second to third words are ranges that match the word string “Universal Studios” with ID: 6 in the first dictionary 11. Further, the 20th to 22nd words are a range that matches the word string “Universal Studios Japan” with ID: 7.
次に、文境界推定部14は、オリジナルテキスト2の各文末記号に対して、その直後に文境界が有るか否かの判断を繰り返す。
Next, the sentence
まず、オリジナルテキスト2における1つ目のピリオドとして、「yesterday」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
First, as the first period in the
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。
Therefore, the sentence
ここで、この「yesterday」の直後のピリオドは、その直後が空白文字であるため、条件1を満たす。また、このピリオドは、その直後の単語「If」が大文字で始まっているため、条件2を満たす。そこで、文境界推定部14は、1つ目のピリオドの直後に文境界が存在すると判断する。
Here, since the period immediately after “yesterday” is a space character immediately after that, the
次に、文境界推定部14は、オリジナルテキスト2における2つ目のピリオドとして、「U.S.」のUの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト2−1および2−2が生成されている。そこで、文境界推定部14は、このピリオドについて、置換後テキスト2−1および2−2に基づいて、順次ステップS4の判断を試みる。
Next, the sentence
まず、置換後テキスト2−1では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−1における20〜21単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト2−1において、20〜21単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字ではない。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−1に基づくステップS4の判断結果は、Yesとなる。
First, in the post-substitution text 2-1, this period is included in the replacement source word string “U.S.” replaced with “United States”. The replacement source word string “U.S.” is replaced with the replacement destination word string “United States” of the 20th to 21st words in the post-replacement text 2-1. Furthermore, in the post-replacement text 2-1, the 20th to 21st words are also a range that matches the word string “United States” of ID: 1 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. The period of interest is not the last character of the replacement source word string “U.S.”. Thereby, about this period, the judgment result of step S4 based on the post-replacement text 2-1 by the sentence
ここで、前述のように、文境界推定部14は、複数の置換後テキストが生成されている場合、少なくとも1つの置換後テキストにおいてステップS4の判断結果がYesとなった場合、ステップS4全体としての判断結果をYesとする。つまり、置換後テキスト2−1に基づくステップS4の判断結果がYesとなったので、文境界推定部14は、このピリオドについて、置換後テキスト2−2に基づくステップS4の判断処理を行うことなく、ステップS4全体の判断結果をYesとする。
Here, as described above, when a plurality of post-replacement texts are generated, the sentence
そこで、文境界推定部14は、2つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
Therefore, the sentence
次に、文境界推定部14は、オリジナルテキスト2における3つ目のピリオドとして、「U.S.」のSの直後にあるピリオドに注目する。この例では、この箇所について、置換先単語列が異なる置換後テキスト2−1および2−2が生成されている。そこで、文境界推定部14は、このピリオドについて、置換後テキスト2−1および2−2に基づいて、順次ステップS4の判断を試みる。
Next, the sentence
まず、置換後テキスト2−1では、このピリオドは、「United States」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−1における20〜21単語目の置換先単語列「United States」に置換されている。さらに、置換後テキスト2−1において、20〜21単語目は、第1辞書11に登録されたID:1の単語列「United States」にマッチする範囲でもある。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。しかしながら、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。また、置換後テキスト2−1における置換先単語列「United States」の最後の単語(21単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲の最後の単語(21単語目)とが一致する。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−1に基づくステップS4の判断結果は、Noとなる。
First, in the post-substitution text 2-1, this period is included in the replacement source word string “U.S.” replaced with “United States”. The replacement source word string “U.S.” is replaced with the replacement destination word string “United States” of the 20th to 21st words in the post-replacement text 2-1. Furthermore, in the post-replacement text 2-1, the 20th to 21st words are also a range that matches the word string “United States” of ID: 1 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. However, the period of interest is the last character of the replacement source word string “U.S.”. Further, the last word (21st word) of the replacement destination word string “United States” in the post-replacement text 2-1 and the last word in a range matching the entry of the first dictionary 11 including this replacement destination word string ( Matches the 21st word). Thereby, about this period, the judgment result of step S4 based on the text 2-1 after substitution by the sentence
また、置換後テキスト2−2では、このピリオドは、「Universal Studios」に置換された置換元単語列「U.S.」に含まれている。また、この置換元単語列「U.S.」は、置換後テキスト2−2における20〜21単語目の置換先単語列「Universal Studios」に置換されている。さらに、置換後テキスト2−2において、20〜22単語目は、第1辞書11に登録されたID:7の単語列「Universal Studios Japan」にマッチする範囲である。つまり、置換された置換先単語列は、第1辞書11の単語列にマッチする範囲に含まれている。また、注目しているピリオドは、置換元単語列「U.S.」の末尾の文字である。しかしながら、置換後テキスト2−2における置換先単語列「Universal Studios」の最後の単語(21単語目)と、この置換先単語列を含む第1辞書11のエントリにマッチする範囲「Universal Studios Japan」の最後の単語(22語目)とが異なる。これにより、このピリオドについて、文境界推定部14による置換後テキスト2−2に基づくステップS4の判断結果は、Yesとなる。
In the post-replacement text 2-2, this period is included in the replacement source word string “U.S.” replaced by “Universal Studios”. The replacement source word string “U.S.” is replaced with the replacement destination word string “Universal Studios” of the 20th to 21st words in the post-replacement text 2-2. Furthermore, in the post-replacement text 2-2, the 20th to 22nd words are ranges that match the word string “Universal Studios Japan” with ID: 7 registered in the first dictionary 11. That is, the replaced replacement destination word string is included in a range that matches the word string in the first dictionary 11. The period of interest is the last character of the replacement source word string “U.S.”. However, the range “Universal Studios Japan” that matches the last word (21st word) of the replacement destination word string “Universal Studios” in the post-replacement text 2-2 and the entry in the first dictionary 11 that includes this replacement destination word string. Is different from the last word (22nd word). Thereby, about this period, the judgment result of step S4 based on the post-replacement text 2-2 by the sentence
ここで、このピリオドについて、少なくとも1つの置換後テキストにおいてステップS4の判断結果がYesとなったので、文境界推定部14は、ステップS4全体としての判断結果をYesとする。
Here, for this period, since the determination result in step S4 is Yes in at least one post-substitution text, the sentence
そこで、文境界推定部14は、3つ目のピリオドの直後は文境界ではないと判断する(ステップS5)。
Therefore, the sentence
次に、文境界推定部14は、オリジナルテキスト2における4つ目のピリオドとして、「Japan」の直後のピリオドに注目する。このピリオドは、テキスト展開部23によって置換された置換元単語列に含まれていない。そのため、このピリオドについて、文境界推定部14によるステップS4の判断結果は、Noとなる。
Next, the sentence
そこで、文境界推定部14は、このピリオドについて、通常の文境界の推定処理を行う(ステップS6)。ここでは、このピリオドは、その直後に文字も単語も存在しないため、条件1および2を共に満たす。そこで、文境界推定部14は、4つ目のピリオドの直後に文境界が存在すると判断する。
Therefore, the sentence
そして、文境界推定部14は、図12に示すように、オリジナルテキスト2に関する文境界の推定結果2を表す情報を出力する。図12では、オリジナルテキスト2において文境界があると判断された箇所に、「{文境界}」の文字列を挿入したテキストを、推定結果2を表す情報として出力している。つまり、オリジナルテキスト2において、「yesterday」の次のピリオドの直後の位置と、「Japan」の次のピリオドの直後の位置とに、文境界が存在することが推定されている。
Then, the sentence
以上で、文境界推定装置2は、オリジナルテキスト2に関する文境界の推定動作を終了する。
Thus, the sentence
次に、本発明の第2の実施の形態の効果について述べる。 Next, the effect of the second exemplary embodiment of the present invention will be described.
本発明の第2の実施の形態としての文境界推定装置は、文末記号が含まれる単語列が、本来とは異なる意味に解釈されることによる文境界の推定精度の低下を防止する。 The sentence boundary estimation device according to the second exemplary embodiment of the present invention prevents a sentence boundary estimation accuracy from being lowered due to a word string including a sentence ending symbol being interpreted in a meaning different from the original meaning.
その理由について説明する。本実施の形態では、本発明の第1の実施の形態と同様の構成に加えて、第2辞書が、置換元単語列および置換先単語列のエントリに対して、出現制約の有無を表す情報を格納している。そして、置換先単語列検出部が、出現制約が有りとなっているエントリの置換先単語列が、オリジナルテキストに出現しているか否かを判定する。そして、テキスト展開部が、出現制約が有りとなっているエントリの置換元単語列については、その置換先単語列がオリジナルテキストに出現している場合に、置換先単語列へ置換して置換後テキストを生成するからである。 The reason will be described. In the present embodiment, in addition to the same configuration as that of the first embodiment of the present invention, the second dictionary stores information indicating the presence / absence of occurrence restrictions for the entries of the replacement source word string and replacement destination word string Is stored. Then, the replacement-destination word string detection unit determines whether or not the replacement-destination word string of the entry having the appearance restriction appears in the original text. Then, the text expansion unit replaces the replacement source word string of the entry with the appearance restriction by replacing it with the replacement destination word string when the replacement destination word string appears in the original text. This is because text is generated.
これにより、本実施の形態は、オリジナルテキストにおいて文末記号を含む置換元単語列を、より適切な置換先単語列に置換することができる。その結果、本実施の形態は、文末記号を含む置換元単語列が意図しない置換先単語列に置換されることにより、その置換先単語列を含む複合語に意図せずマッチしてしまい、本来は文境界があるはずの位置に文境界がないと推定されてしまう事態を回避できる。 Thereby, this Embodiment can replace the replacement source word string including the sentence end symbol in the original text with a more appropriate replacement destination word string. As a result, this embodiment unintentionally matches the compound word including the replacement destination word string by replacing the replacement source word string including the sentence end symbol with the unintended replacement destination word string. Can avoid a situation where it is estimated that there is no sentence boundary at a position where there should be a sentence boundary.
このような本実施の形態の効果について、上述した具体例を用いて具体的に説明する。 The effect of this embodiment will be specifically described using the above-described specific example.
上述の具体例のオリジナルテキスト1および2に対して、文末記号を含む単語を辞書に登録しておく文境界の推定手法を用いて文境界の推定処理を行ったとする。ここで、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、「U.S. Japan」という単語列が辞書に登録されていれば、その内部に文境界がないと推定し、辞書に登録されていない単語については、通常の文境界の推定処理を行う。このように、文末記号を含む単語を辞書に登録しておく文境界の推定手法は、同じ単語列に対して一律の推定結果しか得られない。つまり、「U.S. Japan」の登録がなければ、オリジナルテキスト1では「U.S.」の直後に文境界があると正しく推定されるが、オリジナルテキスト2では「U.S.」の直後に文境界があるとされてしまい、正しい推定結果が得られない。一方で、「U.S. Japan」の登録があれば、オリジナルテキスト2では「U.S.」の直後に文境界がないと正しく推定されるが、オリジナルテキスト1では「U.S.」の直後に文境界がないとされてしまい、正しい推定結果が得られない。
Assume that sentence boundary estimation processing is performed on the
これに対して、本実施の形態は、各オリジナルテキストにおける「U.S. Japan」という単語列を、「Universal Studios Japan」の省略形であると解釈してよいかどうかを、次のように判断する。すなわち、本実施の形態は、該当するオリジナルテキストに「Universal Studios」というスペルアウトされた置換先単語列が含まれるかどうかで、「Universal Studios Japan」の省略形であると解釈するかどうかを判断する。これにより、本実施の形態は、オリジナルテキスト1に対しても、オリジナルテキスト2に対しても、文境界の正しい推定結果を得ることができる。
On the other hand, in the present embodiment, whether or not the word string “U.S. Japan” in each original text may be interpreted as an abbreviation of “Universal Studios Japan” is determined as follows. In other words, the present embodiment determines whether or not to interpret as an abbreviation of “Universal Studios Japan” based on whether or not the corresponding original text includes a spelled-out replacement word string “Universal Studios”. To do. Thereby, this Embodiment can obtain the correct estimation result of sentence boundaries for both the
このように、本実施の形態は、文末記号を含む頭字語等の単語列が本来の意味とは異なる文末記号を含まない単語列に置換されてしまうことにより、適切でない文境界の推定結果が得られることを避けることができる。 As described above, in this embodiment, a word string such as an acronym including a sentence ending symbol is replaced with a word string that does not include a ending symbol different from the original meaning. You can avoid getting it.
なお、上述した本発明の各実施の形態において、オリジナルテキストが英文である例を中心に説明したが、オリジナルテキストの言語は、これに限定されない。 In each of the embodiments of the present invention described above, the example in which the original text is English is mainly described, but the language of the original text is not limited to this.
また、上述した本発明の各実施の形態において、文末記号としてピリオドを適用する例を中心に説明したが、文末記号は、セミコロンやその他の文字、または、文字列であってもよい。また、文末記号として、複数種類の文字または文字列が想定されてもよい。 Further, in each of the embodiments of the present invention described above, an example in which a period is applied as a sentence end symbol has been mainly described. However, the sentence end symbol may be a semicolon, other characters, or a character string. In addition, a plurality of types of characters or character strings may be assumed as sentence ending symbols.
また、上述した本発明の各実施の形態において、第1辞書は、文末記号を含む単語と同等の意味を表すよう文末記号を含まないで表された単語列を格納するだけでなく、さらに、文末記号を含む単語またはそのような単語を含む単語列を格納していてもよい。これは、本発明の各実施の形態と、背景技術で説明した、文末記号を含む単語または複合語を辞書に登録しておく手法とを組み合わせることに相当する。例えば、第1辞書は、文末記号を含む単語が文末に出現することがない単語であれば、その単語を単独で種別1として格納してもよい。また、第1辞書は、文末記号を含む単語が文の途中にも文末にも出現し得る単語であれば、その単語を含む単語列(複合語)を種別2として格納してもよい。この場合、各実施の形態の文境界推定部は、オリジナルテキストの文末記号が、置換された置換元単語列の内部に含まれていない場合でも、第1辞書に登録された種別1または種別2の単語列に含まれる場合には、背景技術で述べたように推定処理を行ってもよい。
Further, in each of the embodiments of the present invention described above, the first dictionary not only stores a word string expressed without including a sentence ending symbol so as to represent the same meaning as a word including a sentence ending symbol, A word including a sentence ending symbol or a word string including such a word may be stored. This corresponds to a combination of each embodiment of the present invention and the method of registering a word or compound word including a sentence ending symbol in the dictionary as described in the background art. For example, the first dictionary may store the word alone as
このように、上述した本発明の各実施の形態は、他の公知の文境界の推定技術と組み合わせて実施されることも可能である。 As described above, the above-described embodiments of the present invention can be implemented in combination with other known sentence boundary estimation techniques.
さらには、機械学習ベースの文境界推定装置において、上述した本発明の各実施の形態による文境界の推定結果を、推定装置に対する素性の一つとして入力するように実施することも可能である。これにより、各実施の形態は、機械学習ベースの文境界推定装置の推定精度を高めることができる。 Furthermore, in the machine learning-based sentence boundary estimation apparatus, the sentence boundary estimation result according to each embodiment of the present invention described above may be input as one of the features for the estimation apparatus. Thereby, each embodiment can improve the estimation accuracy of the machine learning-based sentence boundary estimation device.
また、上述した本発明の各実施の形態において、第1辞書に格納される情報の一例を図3および図9に示したが、第1辞書に格納される情報の内容および形式は、これに限定されない。 Moreover, in each embodiment of the present invention described above, an example of information stored in the first dictionary is shown in FIGS. 3 and 9, but the contents and format of the information stored in the first dictionary are as follows. It is not limited.
また、上述した本発明の各実施の形態において、第2辞書に格納される情報の一例を図4および図10に示したが、第2辞書に格納される情報の内容および形式は、これに限定されない。 In each of the embodiments of the present invention described above, examples of information stored in the second dictionary are shown in FIGS. 4 and 10, but the contents and format of the information stored in the second dictionary are as follows. It is not limited.
また、上述した本発明の各実施の形態において、文境界の推定結果として出力される情報の一例を図6、図11および図12に示したが、出力される情報の内容およびその形式は、これに限定されない。 Moreover, in each embodiment of the present invention described above, examples of information output as sentence boundary estimation results are shown in FIGS. 6, 11, and 12. It is not limited to this.
また、上述した本発明の各実施の形態において、文境界推定装置の各機能ブロックが、メモリに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせは、専用のハードウェアにより実現されていてもよい。 Further, in each of the above-described embodiments of the present invention, an example has been described in which each functional block of the sentence boundary estimation device is realized by a CPU that executes a computer program stored in a memory. However, the present invention is not limited to this, and some, all, or a combination of each functional block may be realized by dedicated hardware.
また、上述した本発明の各実施の形態において、文境界推定装置の機能ブロックは、複数の装置に分散されて実現されてもよい。 Moreover, in each embodiment of this invention mentioned above, the functional block of a sentence boundary estimation apparatus may be distributed and implement | achieved by several apparatuses.
また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した文境界推定装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納しておく。そして、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。 In each embodiment of the present invention described above, the operation of the sentence boundary estimation device described with reference to each flowchart is stored in a storage device (storage medium) of the computer device as a computer program of the present invention. . Then, the computer program may be read and executed by the CPU. In such a case, the present invention is constituted by the code of the computer program or a storage medium.
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。 Moreover, each embodiment mentioned above can be implemented in combination as appropriate.
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。 The present invention is not limited to the above-described embodiments, and can be implemented in various modes.
本発明の活用例として、情報抽出装置や機械翻訳装置がある。これらに本発明の文境界推定技術を適用することにより、一文としてより適切な単位で、情報の抽出または機械翻訳を行うことができる。これにより、本発明の文境界推定技術を適用した情報抽出装置や機械翻訳装置の利用者は、よりわかりやすく、より高精度の情報抽出結果または翻訳結果を得ることができる。 Examples of the use of the present invention include an information extraction device and a machine translation device. By applying the sentence boundary estimation technique of the present invention to these, information extraction or machine translation can be performed in a more appropriate unit as one sentence. Thereby, a user of an information extraction device or a machine translation device to which the sentence boundary estimation technique of the present invention is applied can obtain an information extraction result or a translation result with higher accuracy and more easily understood.
1、2 文境界推定装置
11 第1辞書
12、22 第2辞書
13、23 テキスト展開部
14 文境界推定部
25 置換先単語列検出部
1001 CPU
1002 メモリ
1003 出力装置
1004 入力装置
DESCRIPTION OF
1002
Claims (6)
文末記号を含む単語列である置換元単語列と、前記置換元単語列と同等の意味を表すよう前記文末記号を含まずに表された単語列である置換先単語列とを関連付けて格納した第2辞書と、
前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開部と、
前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定部と、
を備えた文境界推定装置。 A first dictionary for storing word strings;
A replacement source word string that is a word string including a sentence ending symbol and a replacement destination word string that is a word string expressed without including the sentence ending symbol so as to represent the same meaning as the replacement source word string are stored in association with each other. A second dictionary,
A text expansion unit that generates a post-substitution text based on the second dictionary by replacing the replacement source word string in the original text with the associated replacement destination word string;
When estimating a sentence boundary in the original text based on the replaced text and the first dictionary, the sentence end symbol in the original text matches a word string registered in the first dictionary in the replaced text A sentence boundary estimator that estimates that a sentence boundary is not immediately after the sentence end symbol when the replacement source word string is replaced with the replacement destination word string included in the range to be replaced;
A sentence boundary estimation apparatus comprising:
前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列について、当該置換元単語列が前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項1または請求項2に記載の文境界推定装置。 A replacement destination word string detection unit that determines whether or not the replacement destination word string registered in the second dictionary is included in the original text;
The text expansion unit is associated with the replacement source word string determined to be included in the original text by the replacement destination word string detection unit for the replacement source word string in the original text. 3. The sentence boundary estimation apparatus according to claim 1, wherein a replacement process for the replacement destination word string is executed.
前記テキスト展開部は、前記オリジナルテキストにおける前記置換元単語列のうち、前記出現制約が無いことを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部による判定結果に関わらず前記置換先単語列への置換を実行し、前記出現制約が有ることを表す情報が関連付けられた置換元単語列については、前記置換先単語列検出部により前記オリジナルテキストに含まれていると判定された置換先単語列に関連付けられている場合に、当該置換先単語列への置換処理を実行することを特徴とする請求項3に記載の文境界推定装置。 The second dictionary further stores, in association with the replacement source word string, information indicating the presence / absence of occurrence restrictions,
The text development unit relates to a determination result by the replacement-destination word string detection unit for a replacement-source word string associated with information indicating that there is no appearance restriction among the replacement-source word strings in the original text. First, replacement with the replacement destination word string is performed, and the replacement source word string associated with the information indicating that there is an appearance constraint is included in the original text by the replacement destination word string detection unit. 4. The sentence boundary estimation apparatus according to claim 3, wherein, when associated with the determined replacement destination word string, a replacement process for the replacement destination word string is executed.
前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成し、
前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する方法。 A first dictionary that stores a word string, a replacement source word string that is a word string including a sentence ending symbol, and a word string that is expressed without including the sentence ending symbol so as to represent the same meaning as the replacement source word string Using the second dictionary that stores the replacement destination word string in association with each other,
Based on the second dictionary, generate a replacement text in which the replacement source word string in the original text is replaced with the associated replacement destination word string;
When estimating a sentence boundary in the original text based on the replaced text and the first dictionary, the sentence end symbol in the original text matches a word string registered in the first dictionary in the replaced text A method of estimating that a sentence boundary is not immediately after the sentence end symbol when the word is inside the replacement source word string replaced with the replacement destination word string included in the range to be replaced.
前記第2辞書に基づいて、オリジナルテキストにおける前記置換元単語列を、関連付けられた前記置換先単語列に置換した置換後テキストを生成するテキスト展開ステップと、
前記置換後テキストおよび前記第1辞書に基づいて前記オリジナルテキストにおける文境界を推定する際に、前記オリジナルテキストにおける前記文末記号が、前記置換後テキストにおいて前記第1辞書に登録された単語列にマッチする範囲に含まれる前記置換先単語列に置換された置換元単語列の内部にある場合、当該文末記号の直後は文境界でないと推定する文境界推定ステップと、
をコンピュータ装置に実行させるプログラム。 A first dictionary that stores a word string, a replacement source word string that is a word string including a sentence ending symbol, and a word string that is expressed without including the sentence ending symbol so as to represent the same meaning as the replacement source word string Using the second dictionary that stores the replacement destination word string in association with each other,
A text expansion step of generating a post-substitution text based on the second dictionary by replacing the replacement source word string in the original text with the associated replacement destination word string;
When estimating a sentence boundary in the original text based on the replaced text and the first dictionary, the sentence end symbol in the original text matches a word string registered in the first dictionary in the replaced text A sentence boundary estimating step that estimates that the sentence immediately after the sentence ending symbol is not a sentence boundary if it is inside the replacement source word string replaced with the replacement destination word string included in the range to be
That causes a computer device to execute the program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016053510A JP6589704B2 (en) | 2016-03-17 | 2016-03-17 | Sentence boundary estimation apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016053510A JP6589704B2 (en) | 2016-03-17 | 2016-03-17 | Sentence boundary estimation apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017167882A JP2017167882A (en) | 2017-09-21 |
JP6589704B2 true JP6589704B2 (en) | 2019-10-16 |
Family
ID=59913517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016053510A Active JP6589704B2 (en) | 2016-03-17 | 2016-03-17 | Sentence boundary estimation apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6589704B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581459B (en) * | 2020-06-13 | 2021-06-15 | 中国电子信息产业集团有限公司第六研究所 | Character string matching method and character string matching system |
CN112464642A (en) * | 2020-11-25 | 2021-03-09 | 平安科技(深圳)有限公司 | Method, device, medium and electronic equipment for adding punctuation to text |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2423965A1 (en) * | 2000-09-29 | 2002-04-04 | Gavagai Technology Incorporated | A method and system for adapting synonym resources to specific domains |
JP3557605B2 (en) * | 2001-09-19 | 2004-08-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Sentence segmentation method, sentence segmentation processing device using the same, machine translation device, and program |
US20050188322A1 (en) * | 2004-01-09 | 2005-08-25 | Suzanne Napoleon | Method and apparatus for producing structured SGML/XML student compositions |
US8489601B2 (en) * | 2010-07-08 | 2013-07-16 | GM Global Technology Operations LLC | Knowledge extraction methodology for unstructured data using ontology-based text mining |
-
2016
- 2016-03-17 JP JP2016053510A patent/JP6589704B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017167882A (en) | 2017-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102268875B1 (en) | System and method for inputting text into electronic devices | |
US8726148B1 (en) | Method and apparatus for processing text and character data | |
US20100235780A1 (en) | System and Method for Identifying Words Based on a Sequence of Keyboard Events | |
US20120166942A1 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
GB2449516A (en) | Transliteration of roman text to Arabic | |
US8111922B2 (en) | Bi-directional handwriting insertion and correction | |
JP5646792B2 (en) | Word division device, word division method, and word division program | |
JP2013117978A (en) | Generating method for typing candidate for improvement in typing efficiency | |
JP6589704B2 (en) | Sentence boundary estimation apparatus, method and program | |
US20060248037A1 (en) | Annotation of inverted list text indexes using search queries | |
JP2019159826A (en) | Display control program, display control device, and display control method | |
JP4470913B2 (en) | Character string search device and program | |
JP5482236B2 (en) | Program and information processing apparatus | |
JP6538563B2 (en) | INPUT SUPPORT DEVICE, INPUT SUPPORT METHOD, AND PROGRAM | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP4734400B2 (en) | Document search apparatus and program | |
JP4953440B2 (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
WO2008131509A1 (en) | Systems and methods for improving translation systems | |
JP2009176148A (en) | Unknown word determining system, method and program | |
JP4845921B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP4304146B2 (en) | Dictionary registration device, dictionary registration method, and dictionary registration program | |
JP5742454B2 (en) | Input support program, input support apparatus, and input support method | |
JP2007316834A (en) | Japanese sentence modification device, japanese sentence modification method, and program for japanese sentence modification | |
JP4139805B2 (en) | Apparatus, method and program for converting lexical data to data | |
JP4051369B2 (en) | Apparatus, method and program for converting lexical data to data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6589704 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |