JP2015064671A - Sentence normalization system, sentence normalization method, and sentence normalization program - Google Patents
Sentence normalization system, sentence normalization method, and sentence normalization program Download PDFInfo
- Publication number
- JP2015064671A JP2015064671A JP2013197319A JP2013197319A JP2015064671A JP 2015064671 A JP2015064671 A JP 2015064671A JP 2013197319 A JP2013197319 A JP 2013197319A JP 2013197319 A JP2013197319 A JP 2013197319A JP 2015064671 A JP2015064671 A JP 2015064671A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- content
- normalization
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、自然言語等で記述された文を正規化する文正規化システム、文正規化方法及び文正規化プログラムに関する。 The present invention relates to a sentence normalization system, a sentence normalization method, and a sentence normalization program that normalize sentences described in a natural language or the like.
従来から、自然言語で記述された文の意味を解釈して、解釈した意味に基づき分析や応答を行うシステムが知られている。例えば、特許文献1には、入力したテキストを単語列に分解した後、自然言語に対する構文解析処理を行って構文木を得て、更に構文木から意味情報を抽出して情報検索を行う方法が開示されている。 Conventionally, a system that interprets the meaning of a sentence described in a natural language and performs analysis and response based on the interpreted meaning is known. For example, Patent Document 1 discloses a method in which input text is decomposed into word strings, a syntax analysis process is performed on a natural language to obtain a syntax tree, and semantic information is further extracted from the syntax tree to perform information retrieval. It is disclosed.
自然言語で記述された文からの意味情報の抽出は、文の意味に与える影響の薄い表層上の揺らぎを除去して文意と一対一対応する記号列への文の正規化を行うことに相当する。自然言語では、ほぼ同一の意味を書き示すのに多様な表現をとることができる。能動態や受動態、類義語、語尾表現等の多様な言い換えを考慮すると、同一の意味にとることのできる文の揺らぎのバリエーションは膨大である。実用的な自然言語処理システムにはこれら多くの文の揺らぎを頑健に受理し処理することが望まれる。そのため、前出の揺らぎを除去し文を正規化する技術は、情報検索や対話、翻訳等の自然言語を受理する多くの応用において非常に重要である。 Extraction of semantic information from sentences written in natural language is to normalize sentences to symbol strings that correspond one-to-one with the meaning of sentences by removing fluctuations on the surface that have little effect on the meaning of sentences. Equivalent to. In natural language, various expressions can be used to write almost the same meaning. Considering various paraphrasing such as active voice, passive voice, synonym, ending expression, etc., there are a huge number of variations of sentence fluctuations that can have the same meaning. A practical natural language processing system is required to robustly accept and process these many fluctuations. Therefore, the technology that removes the fluctuations described above and normalizes the sentence is very important in many applications that accept natural language such as information retrieval, dialogue, and translation.
特許文献1等に示される従来技術においては、この文正規化は構文解析処理を基礎として行われている。構文解析により主語、動詞、目的語といった文の構成要素を明確にして解析を行うことができ、文意の深い解析が可能である。 In the prior art disclosed in Patent Document 1 and the like, this sentence normalization is performed on the basis of syntax analysis processing. By syntactic analysis, the constituent elements of the sentence such as the subject, verb, and object can be clarified and analyzed.
しかしながら、文が口語的で文法上の崩れがあったり、音声認識等において伝送手段に起因する誤りを含んだりする場合には、構文解析は必ずしも頑健に動作しない。 However, if the sentence is colloquial and has grammatical disruption or contains errors due to transmission means in speech recognition or the like, syntax analysis does not always work robustly.
本発明は、上記の問題点に鑑みてなされたものであり、構文解析では頑健な正規化が困難な文に対しても頑健に正規化を行うことを可能とする文正規化システム、文正規化方法及び文正規化プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and a sentence normalization system and sentence normalization that can robustly normalize a sentence that is difficult to normalize robustly by syntax analysis. An object of the present invention is to provide a normalization method and a sentence normalization program.
上記の目的を達成するために、本発明に係る文正規化システムは、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、を備える。 In order to achieve the above object, a sentence normalization system according to the present invention divides a sentence input by the input means into a word string and estimates the part of speech of each divided word. Morphological analysis means, separation means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word, and separation means from the sentence Content information extracting means for extracting the content information indicating the content of the sentence from the independent words included in the separated content part, and function information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means. Function information extracting means for extracting, content information extracted by the content information extracting means, and output means for outputting the function information extracted by the function information extracting means as a normalized expression of the sentence , Comprising a.
本発明に係る文正規化システムでは、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報と機能情報とが抽出されて、それらが文の正規化された表現として出力される。即ち、本発明に係る文正規化システムでは、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明に係る文正規化システムによれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。 In the sentence normalization system according to the present invention, a word string obtained from a sentence is separated into a content part and a sentence end, content information and function information are extracted from each, and these are output as a normalized expression of the sentence Is done. That is, in the sentence normalization system according to the present invention, normalization is performed from a word string that operates more fundamentally and robustly, without using a syntactic analysis that is likely to be affected by grammatical disruptions that often appear in colloquial sentences. Thereby, according to the sentence normalization system which concerns on this invention, it can normalize robustly also with respect to the sentence which is hard to normalize robustly by syntax analysis.
分離手段は、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とすることとしてもよい。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。 The separating means may use a section from the word string up to the rearmost independent word as a content part and a section after the section as a sentence end. According to this configuration, the sentence can be appropriately and reliably separated into the content part and the sentence end, and as a result, normalization can be performed appropriately.
内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断することとしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。 The content information extraction means determines whether or not the word extracted as the content information includes a question word, or whether or not the last word among the words extracted as the content information is a noun corresponding to the question sentence It is also possible to determine whether the sentence is a question sentence and to determine the type of the question sentence based on the question word or the last word. According to this configuration, it is possible to appropriately normalize the question sentence.
出力手段は、内容情報を自立語が文に登場した順序に応じたものとし、機能情報をソートして出力することとしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。 The output means may set the content information according to the order in which the independent words appear in the sentence, and sort and output the function information. It is considered that the meaning of the order with respect to the meaning is large for the content word sequence, and the meaning of the order with respect to the meaning of the meaning label sequence is small. Therefore, according to this configuration, appropriate normalization can be performed. In particular, since the semantic label string is sorted, normalization that enables comparison between sentences can be performed by ignoring the order of the semantic label string.
形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなすこととしてもよい。また、予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなすこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。 Of the independent words included in the word string divided by the morphological analysis means, a preset independent word may be regarded as an attached word. Further, the target word may be regarded as an attached word according to the word immediately before the target word corresponding to the preset independent word, the part of speech of the previous word, or the utilization form of the previous word. According to these configurations, it is possible to appropriately handle words that should be attached words in normalization, and as a result, normalization can be performed appropriately.
ところで、本発明は、上記のように文正規化システムの発明として記述できる他に、以下のように文正規化方法及び文正規化プログラムの発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。 By the way, the present invention can be described as an invention of a sentence normalization system as described above, and can also be described as an invention of a sentence normalization method and a sentence normalization program as follows. This is substantially the same invention only in different categories and the like, and has the same operations and effects.
即ち、本発明に係る文正規化方法は、文正規化システムの動作方法である文正規化方法であって、文を入力する入力ステップと、入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、分離ステップにおいて文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出ステップと、分離ステップにおいて文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出ステップと、内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力ステップと、を含む。 That is, the sentence normalization method according to the present invention is a sentence normalization method that is an operation method of a sentence normalization system, and includes an input step for inputting a sentence, and a sentence input in the input step is divided into word strings. A morpheme analysis step for estimating the part of speech of each word divided together with the word string divided in the morpheme analysis step into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word From the independent step included in the content part separated from the sentence in the separation step, the content information extraction step for extracting the content information indicating the content of the sentence, and the end of the sentence separated from the sentence in the separation step, A function information extraction step for extracting function information indicating the function expression of the sentence, the content information extracted in the content information extraction step, and the function information extraction means; Including an output step of outputting the feature information extracted as a normalized representation of the statement I.
また、本発明に係る文正規化プログラムは、コンピュータを、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、として機能させる。 The sentence normalization program according to the present invention includes a computer, an input means for inputting a sentence, a morpheme analyzing means for dividing a sentence input by the input means into a word string and estimating a part of speech of each divided word; , Separation means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word, and contents separated from the sentence by the separation means Content information extracting means for extracting content information indicating the content of the sentence from independent words included in the section, and functional information indicating function information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means An output means for outputting the content information extracted by the extraction means, the content information extraction means, and the function information extracted by the function information extraction means as a normalized expression of a sentence; To to function.
本発明では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明によれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。 In the present invention, normalization is performed from a word sequence that operates more fundamentally and robustly, without using parsing that is likely to be affected by grammatical disruptions that often appear in colloquial sentences. Thus, according to the present invention, it is possible to perform normalization robustly even for sentences that are difficult to normalize robustly by syntax analysis.
以下、図面と共に本発明に係る文正規化システム、文正規化方法及び文正規化プログラムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, embodiments of a sentence normalization system, a sentence normalization method, and a sentence normalization program according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1に本実施形態に係る文正規化システム10を示す。文正規化システム10は、文を入力して、入力した文を正規化するシステムである。文正規化システム10による正規化の結果は、文に基づき応答を行うシステムに用いられる。例えば、ユーザの発話の音声認識結果の文に基づいて機能を自動的に実行するシステムで用いられる。入力される文(テキスト)は、例えば、自然言語で記述された短文である。更に、入力される文は口語文であってもよい。但し、正規化対象の文は、必ずしも上記のものに限られず、任意の文を正規化対象とすることとしてもよい。
FIG. 1 shows a
文の正規化は、一定のルールに基づいて、文の意味に与える影響の薄い表層上の揺らぎを除去して、文意と一対一対応する記号列等の予め設定された形式に変更することである。上述したように、例えば、口語文等の自然言語で記述された文は、同じ文意であっても様々な表現がある。即ち、文に表層上の揺らぎが存在する。正規化は、同一の文意の文を一律の表現(正規化した表現)にして、正規化の結果が用いられるシステムで文の示す意味を用いやすいようにするためのものである。具体的に、どのような形式に正規化するかについては後述する。 Sentence normalization is based on a certain rule, removing fluctuations on the surface that have little effect on the meaning of the sentence, and changing it to a preset format such as a symbol string that has a one-to-one correspondence with the meaning of the sentence. It is. As described above, for example, sentences described in a natural language such as a colloquial sentence have various expressions even if they have the same sentence meaning. That is, there is a fluctuation on the surface layer in the sentence. Normalization is to make sentences having the same meaning in a uniform expression (normalized expression) so that the meaning indicated by the sentence can be easily used in a system in which the result of normalization is used. Specifically, the format to be normalized will be described later.
文正規化システム10は、具体的には、サーバ装置やPC(Personal Computer)等のコンピュータにより実現される。なお、文正規化システム10は、必ずしも1台のコンピュータによって実現されている必要はなく、互いに接続された複数台のコンピュータによるコンピュータシステムによって実現されてもよい。また、文正規化システム10は、必要な情報を入力するため、あるいは生成した情報を出力するために他の装置と接続されており、情報の送受信が可能となっていてもよい。
Specifically, the
引き続いて、文正規化システム10の機能構成を説明する。図1に示すように文正規化システム10は、入力部11と、形態素解析部12と、分離部13と、内容語列抽出部14と、意味ラベル列抽出部15と、記号列結合部16とを備えて構成される。
Subsequently, the functional configuration of the
入力部11は、正規化対象の文を入力する入力手段である。具体的には、入力部11は、外部の装置あるいはモジュールから文(テキスト情報)を受信することで文を入力する。あるいは、入力部11は、ユーザの文の入力を受け付けることで文を入力する。入力部11は、入力した文を形態素解析部12に出力する。
The
形態素解析部12は、入力部11から入力された文を単語列(形態素列)に分割すると共に分割した各単語の品詞を推定する形態素解析手段である。形態素解析部12は、分割した各単語の品詞のみでなくそれらの活用形を推定してもよい。単語列への分割及び品詞や活用形の推定を行う形態素解析の実現方法については、従来から当業者に広く知られている方法を用いることができる。
The morpheme analyzer 12 is a morpheme analyzer that divides the sentence input from the
一例として、入力文が「私のアイス食べたでしょう」であった場合、形態素解析部12による形態素解析結果である単語列及び当該単語の品詞は、「私:名詞」「の:助詞」「アイス:名詞」「食べる:動詞」「た:助動詞」「でしょ:助動詞」「う:助動詞」のようになる。なお、上記の記載は「文から分割した単語:推定した当該単語の品詞」である。単語列は、単語が文に登場(出現)した順番で並んだものである。単語分割の単位は、処理の本質には影響がなく、形態素解析の実装により異なってもよい。また、動詞等の活用語については、原型(終止形)への変換をおこなってもよい。この変換は、形態素解析処理に一般的に備えられる機能である。本実施形態においては、活用語は原型に変換されたものとして取り扱う。形態素解析部12は、文から分割した単語列及び推定した各単語の品詞を示す情報を分離部13に出力する。
As an example, when the input sentence is “I ate my ice cream”, the word string and the part of speech of the morphological analysis result by the morphological analysis unit 12 are “I: noun”, “no: particle”, “ Ice: Noun, Eat: Verb, Ta: Auxiliary verb, Doshi: Auxiliary verb, U: Auxiliary verb. In addition, said description is "the word divided | segmented from the sentence: the estimated part of speech of the said word." The word strings are arranged in the order in which words appear (appear) in the sentence. The unit of word division does not affect the essence of processing, and may differ depending on the implementation of morphological analysis. In addition, verbs such as verbs may be converted to a prototype (end form). This conversion is a function generally provided in the morphological analysis process. In the present embodiment, the utilization word is handled as being converted into a prototype. The morphological analysis unit 12 outputs information indicating the word string divided from the sentence and the estimated part of speech of each word to the
分離部13は、形態素解析部12から入力された単語列を、形態素解析の結果により得られる単語境界と推定された各単語の品詞とに基づいて、当該文の内容を含む内容部と文末とに分離する分離手段である。具体的には、分離部13は、まず各単語の品詞に基づき、単語が自立語であるか付属語であるかの判断を行う。例えば、当該判断は一般的な文法に従って行う。即ち、分離部13は、予め設定した品詞である名詞、動詞、形容詞、形容動詞、副詞及び感動詞等の品詞の単語を自立語と判断する。また、分離部13は、自立語と判断されなかった単語を付属語と判断する。なお、副詞については、流儀により自立語に含めてもよいし、含めなくてもよい。
Based on the word boundary obtained from the result of the morphological analysis and the estimated part of speech of each word, the
続いて、分離部13は、文の先頭から、最も後ろに位置する自立語までの区間の連続した単語列を内容部する。また、分離部13は、内容部の次の単語から文末尾までの連続した単語列を文末とする。結果として、文末は、文末尾から連続する付属語の区間ということになる。例外として、形態素解析部12から入力された単語列に含まれる自立語のうち、予め設定された単語である「いい」「よい」「こと」「ある」「ない」「できる」「よろしく」(「よろしい」)といった内容語としての意味の薄い自立語を付属語と同様にみなしてもよい。
Subsequently, the
また、予め設定された単語である、これらの自立語の一部又は全部を、当該予め設定された単語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて(依存して)当該対象単語を付属語とみなすか否かを判断してもよい。例えば、形容詞「いい」は、「〜していいですか」のように、直前に助詞「て」「で」がある場合には本来の語義である「良い・悪い」の意味を持たず許可を求める機能表現と解釈するのが自然だが、「それはいい」のように直前に助詞「て」「で」がない場合には「良い・悪い」の意味を持つと解釈するのが自然である。分離部13は、予め自立語を付属語とみなすための上記に従ったルールを記憶しておき、当該ルールに基づき自立語を付属語とみなすか否かの判断を行う。
Further, a part or all of these independent words, which are preset words, can be obtained by adding the word immediately before the target word corresponding to the preset word, the part of speech of the immediately preceding word, or the immediately preceding word. Whether or not the target word is regarded as an attached word may be determined according to the usage form (depending on). For example, the adjective “good” is permitted without the meaning of “good / bad”, which is the original meaning when the particles “te” and “de” are immediately preceded, such as “can I do it?” It is natural to interpret it as a functional expression that asks for it, but it is natural to interpret it as having a meaning of “good / bad” when there is no particle “te” or “de” immediately before, such as “it is good”. . The
なお、自立語を付属語とみなす判断は、文正規化システム10全体で行われることとしてもよい。例えば、一旦分離部13において自立語が付属語とみなすものされた場合には、以降の処理においても当該自立語は付属語として扱われる。あるいは、自立語及び付属語の別が用いられる機能部(例えば、分離部13及び内容語列抽出部14)の何れかにおいて当該判断が行われて、当該機能部における処理でのみ当該自立語は付属語として扱われることとしてもよい。
Note that the determination that an independent word is regarded as an attached word may be made by the
図2に内容部と文末とへの文の分離例を示す。図2に示すように、入力文が「私のアイス食べたでしょう」であった場合、文の先頭から、最も後ろに位置する自立語である「食べる:動詞」までの連続した単語列を内容部とする。また、最も後ろに位置する自立語の次の単語である「た:助動詞」から文末尾までの連続した単語列を文末とする。分離部13は、上記の分離によって内容部とされた単語列を内容語列抽出部14に、文末とされた単語列を意味ラベル列抽出部15に出力する。
FIG. 2 shows an example of sentence separation into a content part and a sentence end. As shown in Fig. 2, if the input sentence is "I would have eaten my ice", a continuous word string from the beginning of the sentence to the last independent word "eat: verb" The content part. Further, a continuous word string from “ta: auxiliary verb”, which is the next word of the independent word located at the back to the end of the sentence, is set as the end of the sentence. The
内容語列抽出部14は、分離部13から入力された内容部に含まれる自立語から、入力文の内容を示す内容情報を抽出する内容情報抽出手段である。具体的には、内容語列抽出部14は、内容部から、入力文の内容を示す単語列である内容語列を内容情報として抽出する。内容語列抽出部14は、内容部に含まれる単語のうち自立語に当たる単語を全て抽出し、内容語列とする。内容語列は、抽出された単語が文に登場した順番で並んだものとしてもよい。
The content word
また、内容語列抽出部14は、内容語列に含まれる単語のうち、類義語又は同義語としてグループ化が可能な単語を、グループを一意に示す識別子に置き換えてもよい。例えば、「私」と「僕」との単語は何れも一人称単数を示す代名詞で同義であると考えてよいため、何れの単語が内容語列に含まれる場合も、<代名詞:一人称単数>という識別子に置き換えてもよい。この置き換えは、例えば、予め図3に示すような単語の表記と識別子とを対応付けた対応表を内容語列抽出部14に記憶させておき、当該対応表に基づいて行うことができる。
The content word
また、内容語列抽出部14は、必須ではないが次に述べる方法で疑問文判定処理を行うこととしてもよい。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれるか否かを判断することで入力文が疑問文であるか否かを判定する。予め設定された疑問詞は、例えば、「何」「いつ」といった単語である。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれると判断した場合には、内容語列から疑問詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれないと判断した場合には、入力文が疑問文ではないと判定する。
Further, the content word
また、内容語列抽出部14は、上記のように入力文が疑問文であると判定した場合に、当該疑問詞に基づき当該疑問文の種別を判断する。例えば、「何」であればWhat、「いつ」であればWhenというように疑問文が5W1H(Who(誰が)、What(何を)、When(いつ)、Where(どこで)、Why(なぜ)、How(どのように))の何れを聞いているのかの種別を判断する。疑問文の種別は、例えば、予め設定された疑問詞に対応付けられている。上記の判断は、例えば、予め図3に示すような疑問詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた対応表を内容語列抽出部14に記憶させておき、当該対応表に基づいて行うことができる。
Further, when it is determined that the input sentence is a question sentence as described above, the content word
あるいは、内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であるか否かを判断することで入力文が疑問文であるか否かを判定する。疑問文に対応する名詞とは、例えば、「時間」「長さ」「理由」といった、5W1Hの何れかに相当する抽象名詞である。内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であると判断した場合には、内容語列から当該名詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞ではないと判断した場合には、入力文が疑問文ではないと判定する。
Alternatively, the content word
また、内容語列抽出部14は、上記のように入力文が疑問文であると判断した場合に、当該末尾の単語に基づき当該疑問文の種別を判断する。疑問文の種別は、例えば、疑問文に対応する予め設定された名詞に対応付けられている。「時間」であれば「When」、「長さ」であれば「HowMuch」、「理由」であれば「Why」との疑問文の種別がそれぞれ対応付けられている。上記の判断は、例えば、予め疑問文に対応する予め設定された名詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた情報(例えば、図3に示す対応表)を内容語列抽出部14に記憶させておき、当該情報に基づいて行うことができる。
When the content word
上記の判断の具体例を示す。抽出した内容語列が「ご飯」「何」というものであった場合、「何」は「What」の種別に相当する疑問詞であるので内容語列から取り除き、文を「What」の種別に相当する疑問文であると判断する。また、抽出した内容語列が「富士山」「高さ」というものであった場合、内容語列の末尾の単語である「高さ」は「HowMuch」に相当する抽象名詞であるので内容語列から取り除き、文を「HowMuch」の種別に相当する疑問文であると判断する。 A specific example of the above determination will be shown. If the extracted content word sequence is “rice” or “what”, “what” is a question word corresponding to the type of “What”, so it is removed from the content word sequence and the sentence is changed to the type of “What”. Judged as the corresponding question sentence. If the extracted content word string is “Mt. Fuji” or “Height”, the word “height”, which is the last word in the content word string, is an abstract noun corresponding to “HowMuch”. It is determined that the sentence is a question sentence corresponding to the type of “HowMuch”.
内容語列抽出部14は、上記の処理の結果として、内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の3つの情報を得る。内容語列抽出部14は、これらの情報を記号列結合部16に出力する。但し、文が疑問文であるか否かの判定、及び文が疑問文である場合には疑問文の種別の判断は必須ではなく、これらの判定及び判断結果の情報の出力は必須ではない。
As a result of the above processing, the content word
意味ラベル列抽出部15は、分離部13から入力された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段である。文の機能表現を示す機能情報は、例えば、「依頼」「否定」「完了」「推量」等の文全体としてどのような意図を表すかを示すものである。本実施形態では、意味ラベル列抽出部15は、機能情報として以下に示すような意味ラベルの集合からなる意味ラベル列を抽出する。意味ラベル列抽出部15は、予め図4に示すような表記と意味ラベルとを対応付けた対応表を記憶しておき、当該対応表に基づいて意味ラベルの抽出を行う。意味ラベル列抽出部15は、文末に含まれる連続した単語列(1つの単語も含まれる)の表記と、記憶した対応表の表記との一致を判断し、それらが一致した場合には、対応する意味ラベルを意味ラベル列に加える。文末と図4の対応表の表記との照合は単純な文字列一致に基づいて行ってもよい。あるいは、単純な文字列一致ではなく、直前の単語やその活用形を考慮して意味ラベルの推定を行ってもよい。例えば、特開2011−145844号公報(述部機能表現正規化方法、その装置及びプログラム、特許文献2)及び特開2012−203584号公報(述部正規化装置、方法、及びプログラム、特許文献3)に示される方法で行われる。
The meaning label string extraction unit 15 is a function information extraction unit that extracts function information indicating the function expression of the sentence from the sentence end input from the
例えば、図2に示す例文の場合であれば、「た」が「完了」、「でしょ」が「推量」の意味ラベルに対応するため、意味ラベル列抽出部15は、「完了」「推量」の2つの意味ラベルを意味ラベル列として抽出する。意味ラベル列抽出部15は、抽出した意味ラベル列を記号列結合部16に出力する。 For example, in the case of the example sentence shown in FIG. 2, since “ta” corresponds to the meaning label “complete” and “decho” corresponds to the meaning label “estimation”, the meaning label string extraction unit 15 performs “completion” Are extracted as a semantic label string. The meaning label string extraction unit 15 outputs the extracted meaning label string to the symbol string combination unit 16.
記号列結合部16は、内容語列抽出部14から入力された内容語列、及び意味ラベル列抽出部15から入力された意味ラベル列を連結して正規化記号列を生成し、正規化記号列に基づく文の正規化された表現を示す情報を出力する出力手段である。例えば、記号列結合部16は、入力文に基づき応答を行うシステムに当該情報を送信することとで当該出力を行う。また、それ以外の任意の出力先に当該情報を出力することとしてもよい。
The symbol string combination unit 16 generates a normalized symbol string by concatenating the content word string input from the content word
記号列結合部16は、内容語列抽出部14から文が疑問文であるとの判定結果が入力された場合には、意味ラベル列にその旨を示す「疑問」を加える。また、記号列結合部16は、内容語列抽出部14から入力された疑問文の種別を示す情報も意味ラベル列に加える。正規化記号列の生成において、記号列結合部16は、内容語列を入力文に登場した順序で内容語が並んだ列として扱う。即ち、記号列結合部16は、内容情報を自立語が文に登場した順序に応じたものとする。あるいは、内容語を、内容語の文字列に従って一定の基準でソートしてもよい。この基準は、例えば、50音順又はアルファベット順である。正規化の手順の中でソートを行うことは、内容語列を入力文中の順序を無視して扱うことに相当する。
When the determination result that the sentence is a question sentence is input from the content word
また、記号列結合部16は、意味ラベル列を、意味ラベルの文字列に従って一定の基準でソートしてもよい。この基準は、例えば、上記と同様の50音順又はアルファベット順である。また、疑問文判定結果を加えた結果、意味ラベル列に重複が生じる場合があるので、その重複は取り除くこととしてもよい。 Further, the symbol string coupling unit 16 may sort the meaning label string according to a character string of the meaning label according to a certain standard. This standard is, for example, the same as the above in the order of the Japanese syllabary or alphabetical order. Further, as a result of adding the question sentence determination result, duplication may occur in the semantic label string, and the duplication may be removed.
以上の処理により、疑問文判定処理を内容語列抽出部14において行っていた場合は、入力文のいずれの位置に疑問詞があった場合も正規化記号列は同一になるとい効果が得られる。また、「会議はいつ」と「会議の時間」といったように、疑問詞を使った疑問文と使わない疑問文とが内容語列「会議」、意味ラベル列「疑問」、「When」という同一の正規化記号列に変換されることにより、同一の意味とみなすことができる。
With the above processing, when the question sentence determination process is performed in the content word
図5に入力文と、記号列結合部16によって得られる、当該入力文に対応する正規化記号列とを示す。図5の表の正規化パターンの欄に示される正規化記号列の例では、Contentとの文字列に続く単語列が内容語列、Labelとの文字列に続く単語列が意味ラベル列をそれぞれ示している。なお、ここでの単語列には、単語が置き換えられた識別子(例えば、<代名詞:一人称単数>)も含まれる。 FIG. 5 shows an input sentence and a normalized symbol string corresponding to the input sentence obtained by the symbol string coupling unit 16. In the example of the normalization symbol string shown in the normalization pattern column of the table of FIG. 5, the word string following the character string “Content” is the content word string, and the word string following the character string “Label” is the meaning label string. Show. The word string here also includes an identifier (for example, <pronoun: first person singular>) in which the word is replaced.
上記の通り、正規化記号列は、内容語列と意味ラベル列という2つの識別子配列(単語列)の集合である。記号列結合部16は、この集合を、図5の正規化パターンの欄に示すように一定のルールに従って識別子配列を文字列に展開することとしてもよい。この文字列を入力文から一意に定まる正規化パターン(文の正規化された表現)とみなすことができる。記号列結合部16は、上記の正規化パターンを出力する。なお、文の正規化された表現は、必ずしも図5に示すような正規化パターンである必要はなく、正規化記号列に基づく情報であれば任意の形式をとることができる。 As described above, the normalization symbol string is a set of two identifier arrays (word strings), which are a content word string and a semantic label string. The symbol string coupling unit 16 may expand the identifier array into a character string according to a certain rule as shown in the column of the normalization pattern in FIG. This character string can be regarded as a normalization pattern (normalized expression of the sentence) uniquely determined from the input sentence. The symbol string coupling unit 16 outputs the above normalization pattern. It should be noted that the normalized expression of the sentence is not necessarily a normalization pattern as shown in FIG. 5, and can take any form as long as it is information based on the normalization symbol string.
複数の文から得られる正規化パターンが同一であれば、それらの文は同義であるとみなすことができる。例えば、図5において「私のアイス食べたでしょう」という文と「私アイス食べたい」という文とは意味ラベル列が異なり正規化パターンが完全一致しないので同義ではない。一方、「いつ会議ですか」という文と「会議は何時」という文とは正規化パターンが完全一致するので同義である。なお、上記の通り、意味ラベル列はソートされており、正規化パターン同志の比較は意味ラベルについては集合間の比較に相当する。以上の手順で示された複数の文の間の同義判定を利用し、例えばユーザによる文入力に対して頑健に応答を返す対話システム等の応用が可能である。以上が、文正規化システム10の機能構成である。
If the normalization patterns obtained from a plurality of sentences are the same, they can be regarded as synonymous. For example, the sentence “I would have eaten my ice” and the sentence “I want to eat my ice” in FIG. 5 are not synonymous because the semantic label columns are different and the normalization patterns do not completely match. On the other hand, the sentence “when is the meeting” and the sentence “when is the meeting” are synonymous because the normalization patterns completely match. As described above, the meaning label strings are sorted, and the comparison between the normalization patterns is equivalent to the comparison between sets for the meaning labels. The synonym determination between a plurality of sentences shown in the above procedure is used, and for example, an application such as an interactive system that returns a robust response to a sentence input by a user is possible. The functional configuration of the
図6に本実施形態に係る文正規化システム10のハードウェア構成を示す。図6に示すように文正規化システム10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した文正規化システム10の機能が発揮される。以上が、本実施形態に係る文正規化システム10の構成である。
FIG. 6 shows a hardware configuration of the
引き続いて、図7のフローチャートを用いて、本実施形態に係る文正規化システム10の動作方法であり、文正規化システム10で実行される処理である文正規化方法を説明する。本処理では、入力部11によって、正規化対象の文が入力される(S01、入力ステップ)。入力された正規化対象の文は、入力部11から形態素解析部12に出力される。続いて、形態素解析部12によって、入力部11から入力された文に対して形態素解析が行われ、当該文が単語列(形態素列)に分割されると共に分割された各単語の品詞が推定される(S02、形態素解析ステップ)。文から分割された単語列及び推定された各単語の品詞を示す情報が、形態素解析部12から分離部13に出力される。
Subsequently, a sentence normalization method, which is an operation method of the
続いて、分離部13によって、形態素解析部12から入力された単語列が、推定された各単語の品詞に基づいて内容部と文末とに分離される(S03、分離ステップ)。内容部とされた単語列は、分離部13から内容語列抽出部14に出力される。文末とされた単語列は、分離部13から意味ラベル列抽出部15に出力される。
Subsequently, the
続いて、内容語列抽出部14によって、分離部13から入力された内容部に含まれる自立語が、内容情報である内容語列として抽出される(S04、内容情報抽出ステップ)。この際、内容部に基づいて文が疑問文であるか否かの判定、及び疑問文の種別の判断が合わせて行われてもよい。上記により得られた内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の3つの情報は、内容語列抽出部14から記号列結合部16に出力される。
Subsequently, the independent word included in the content part input from the
一方で、意味ラベル列抽出部15によって、分離部13から入力された文末から、機能情報である意味ラベル列が抽出される(S05、機能情報抽出ステップ)。抽出された意味ラベル列は、意味ラベル列抽出部15から記号列結合部16に出力される。なお、S04及びS05の処理は、独立した処理であるため必ずしも上記の順番に行われる必要はなく、並行してあるいは上記とは逆の順番で行われてもよい。 On the other hand, the meaning label string extraction unit 15 extracts a meaning label string as function information from the sentence end inputted from the separation unit 13 (S05, function information extraction step). The extracted meaning label string is output from the meaning label string extraction unit 15 to the symbol string combination unit 16. Note that the processes of S04 and S05 are independent processes, and thus are not necessarily performed in the above order, and may be performed in parallel or in the reverse order.
続いて、記号列結合部16によって、内容語列抽出部14から入力された内容語列、及び意味ラベル列抽出部15から入力された意味ラベル列が連結されて正規化記号列が生成される(S06、出力ステップ)。続いて、記号列結合部16によって、正規化記号列に基づく正規化パターン(文の正規化された表現)が、例えば、入力文に基づき応答を行うシステムに送信されることにより出力される(S07、出力ステップ)。以上が、本実施形態に係る文正規化システム10で実行される処理である文正規化方法である。
Subsequently, the symbol string combination unit 16 concatenates the content word string input from the content word
上述したように本実施形態では、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報である内容語列と機能情報である意味ラベル列とが抽出されて、それらに基づく正規化パターンが文の正規化された表現として出力される。即ち、本実施形態では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から単純で決定論的な操作に基づく正規化が行われる。即ち、構文解析の精度限界に起因する文正規化の誤りを避け、頑健に正規化が行われる。これにより、本発明に係る文正規化システムによれば、例えば、口語的な文等の構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。 As described above, in the present embodiment, a word string obtained from a sentence is separated into a content part and a sentence end, and a content word string that is content information and a meaning label string that is function information are extracted from each of them. The normalization pattern based on is output as a normalized representation of the sentence. In other words, in this embodiment, normalization based on simple and deterministic operations is performed from a more basic and robustly operating word string, without using parsing that is easily affected by grammatical disruptions that often appear in colloquial sentences. Is called. That is, normalization is robustly performed while avoiding sentence normalization errors due to the accuracy limit of parsing. Accordingly, the sentence normalization system according to the present invention can robustly normalize a sentence that is difficult to normalize robustly by syntactic analysis of a colloquial sentence or the like.
また、上述したように内容部と文末との分離は、単語列のうち最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とすることとしてもよい。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。 Further, as described above, the separation of the content part and the sentence end may be performed by using a section from the word string to the rearmost independent word as the content part and the section and the following as the sentence end. According to this configuration, the sentence can be appropriately and reliably separated into the content part and the sentence end, and as a result, normalization can be performed appropriately.
また、本実施形態のように内容語列の単語に基づいて疑問文判定及び疑問文の種別の判断を行うこととしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。 In addition, as in the present embodiment, question sentence determination and question sentence type determination may be performed based on the words in the content word string. According to this configuration, it is possible to appropriately normalize the question sentence.
また、本実施形態のように内容語列についてはソートせず、意味ラベル列についてはソートして正規化を行うこととしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。但し、内容語列及び意味ラベル列のソートについては、必ずしも上記のようにする必要はない。想定される文や正規化が利用されるシステムに応じて、内容語列についてソートしたり、意味ラベル列についてソートしなかったりしてもよい。 Further, the content word string may not be sorted as in the present embodiment, and the semantic label string may be sorted and normalized. It is considered that the meaning of the order with respect to the meaning is large for the content word sequence, and the meaning of the order with respect to the meaning of the meaning label sequence is small. Therefore, according to this configuration, appropriate normalization can be performed. In particular, since the semantic label string is sorted, normalization that enables comparison between sentences can be performed by ignoring the order of the semantic label string. However, it is not always necessary to sort the content word string and the semantic label string as described above. Depending on the assumed sentence and the system in which normalization is used, the content word string may be sorted or the semantic label string may not be sorted.
また、上述したように特定の自立語を付属語とみなして正規化を行うこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。 Further, as described above, normalization may be performed by regarding a specific independent word as an attached word. According to these configurations, it is possible to appropriately handle words that should be attached words in normalization, and as a result, normalization can be performed appropriately.
引き続いて、上述した一連の文正規化システム10による処理をコンピュータに実行させるための文正規化プログラムを説明する。図8に示すように、文正規化プログラム30は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体20に形成されたプログラム格納領域21内に格納される。
Subsequently, a sentence normalization program for causing a computer to execute the above-described series of
文正規化プログラム30は、入力モジュール31と、形態素解析モジュール32と、分離モジュール33と、内容語列抽出モジュール34と、意味ラベル列抽出モジュール35と、記号列結合モジュール36とを備えて構成される。入力モジュール31と、形態素解析モジュール32と、分離モジュール33と、内容語列抽出モジュール34と、意味ラベル列抽出モジュール35と、記号列結合モジュール36とを実行させることにより実現される機能は、上述した文正規化システム10の入力部11と、形態素解析部12と、分離部13と、内容語列抽出部14と、意味ラベル列抽出部15と、記号列結合部16との機能とそれぞれ同様である。
The
なお、文正規化プログラム30は、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、文正規化プログラム30の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の文正規化プログラム30の処理が行われる。
The
10…文正規化システム、11…入力部、12…形態素解析部、13…分離部、14…内容語列抽出部、15…意味ラベル列抽出部、16…記号列結合部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、20…記録媒体、21…プログラム格納領域、30…文正規化プログラム、31…入力モジュール、32…形態素解析モジュール、33…分離モジュール、34…内容語列抽出モジュール、35…意味ラベル列抽出モジュール、36…記号列結合モジュール。
DESCRIPTION OF
Claims (8)
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
を備える文正規化システム。 An input means for inputting a sentence;
A morpheme analyzing unit that divides a sentence input by the input unit into word strings and estimates a part of speech of each divided word;
Separating means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word;
Content information extracting means for extracting content information indicating the content of the sentence from independent words included in the content part separated from the sentence by the separating means;
Functional information extracting means for extracting functional information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means;
Output means for outputting the content information extracted by the content information extraction means and the function information extracted by the function information extraction means as a normalized expression of the sentence;
A sentence normalization system.
文を入力する入力ステップと、
前記入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、
前記形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、
前記分離ステップにおいて前記文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出ステップと、
前記分離ステップにおいて前記文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出ステップと、
前記内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力ステップと、
を含む文正規化方法。 A sentence normalization method that is an operation method of a sentence normalization system,
An input step for entering a sentence;
Dividing the sentence input in the input step into word strings and estimating the part of speech of each divided word;
A separation step of separating the word string divided in the morphological analysis step into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word;
A content information extraction step for extracting content information indicating the content of the sentence from independent words included in the content part separated from the sentence in the separation step;
A function information extraction step for extracting function information indicating the function expression of the sentence from the sentence end separated from the sentence in the separation step;
An output step of outputting the content information extracted in the content information extraction step and the function information extracted by the function information extraction means as a normalized expression of the sentence;
Normalization method including
文を入力する入力手段と、
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
として機能させる文正規化プログラム。 Computer
An input means for inputting a sentence;
A morpheme analyzing unit that divides a sentence input by the input unit into word strings and estimates a part of speech of each divided word;
Separating means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word;
Content information extracting means for extracting content information indicating the content of the sentence from independent words included in the content part separated from the sentence by the separating means;
Functional information extracting means for extracting functional information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means;
Output means for outputting the content information extracted by the content information extraction means and the function information extracted by the function information extraction means as a normalized expression of the sentence;
Sentence normalization program to function as.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013197319A JP6145011B2 (en) | 2013-09-24 | 2013-09-24 | Sentence normalization system, sentence normalization method, and sentence normalization program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013197319A JP6145011B2 (en) | 2013-09-24 | 2013-09-24 | Sentence normalization system, sentence normalization method, and sentence normalization program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015064671A true JP2015064671A (en) | 2015-04-09 |
JP6145011B2 JP6145011B2 (en) | 2017-06-07 |
Family
ID=52832512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013197319A Active JP6145011B2 (en) | 2013-09-24 | 2013-09-24 | Sentence normalization system, sentence normalization method, and sentence normalization program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6145011B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522932A (en) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | Information extraction method, device, equipment and storage medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005259143A (en) * | 2004-03-09 | 2005-09-22 | Microsoft Corp | Compression of log of language data |
JP2011164678A (en) * | 2010-02-04 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Functional expression complementing apparatus, method and program |
-
2013
- 2013-09-24 JP JP2013197319A patent/JP6145011B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005259143A (en) * | 2004-03-09 | 2005-09-22 | Microsoft Corp | Compression of log of language data |
JP2011164678A (en) * | 2010-02-04 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | Functional expression complementing apparatus, method and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522932A (en) * | 2020-04-23 | 2020-08-11 | 北京百度网讯科技有限公司 | Information extraction method, device, equipment and storage medium |
CN111522932B (en) * | 2020-04-23 | 2023-05-16 | 北京百度网讯科技有限公司 | Information extraction method, device, equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP6145011B2 (en) | 2017-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3906356B2 (en) | Syntax analysis method and apparatus | |
US9697477B2 (en) | Non-factoid question-answering system and computer program | |
JP6909832B2 (en) | Methods, devices, equipment and media for recognizing important words in audio | |
KR20220027198A (en) | Pinning of Artifacts for Expansion of Search Keys and Search Spaces in a Natural Language Understanding (NLU) Framework | |
US10460028B1 (en) | Syntactic graph traversal for recognition of inferred clauses within natural language inputs | |
JP2000353161A (en) | Method and device for controlling style in generation of natural language | |
TWI536183B (en) | System and method for eliminating language ambiguity | |
Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
US10740570B2 (en) | Contextual analogy representation | |
WO2012079257A1 (en) | Method and device for machine translation | |
KR20120053207A (en) | Method for recognizing relation based on pas(predicate-argument structure) and apparatus thereof | |
KR20090061844A (en) | System and method for extracting semantic metadata based on ontology | |
Reshadat et al. | A new open information extraction system using sentence difficulty estimation | |
Alosaimy et al. | Tagging classical Arabic text using available morphological analysers and part of speech taggers | |
Dalai et al. | Part-of-speech tagging of Odia language using statistical and deep learning based approaches | |
US20210064820A1 (en) | Machine learning lexical discovery | |
KR20060043583A (en) | Compression of logs of language data | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
Nair et al. | Sanskrit stemmer design: A literature perspective | |
JP6145011B2 (en) | Sentence normalization system, sentence normalization method, and sentence normalization program | |
US20210073466A1 (en) | Semantic vector rule discovery | |
US10325025B2 (en) | Contextual analogy representation | |
Labidi | New combined method to improve Arabic POS tagging | |
Ondáš et al. | Extracting sentence elements for the natural language understanding based on slovak national corpus | |
Dissanayake et al. | Enhancing conversational ai model performance and explainability for sinhala-english bilingual speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6145011 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |