JP2015064671A - Sentence normalization system, sentence normalization method, and sentence normalization program - Google Patents

Sentence normalization system, sentence normalization method, and sentence normalization program Download PDF

Info

Publication number
JP2015064671A
JP2015064671A JP2013197319A JP2013197319A JP2015064671A JP 2015064671 A JP2015064671 A JP 2015064671A JP 2013197319 A JP2013197319 A JP 2013197319A JP 2013197319 A JP2013197319 A JP 2013197319A JP 2015064671 A JP2015064671 A JP 2015064671A
Authority
JP
Japan
Prior art keywords
sentence
word
content
normalization
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013197319A
Other languages
Japanese (ja)
Other versions
JP6145011B2 (en
Inventor
孝輔 辻野
Kosuke Tsujino
孝輔 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013197319A priority Critical patent/JP6145011B2/en
Publication of JP2015064671A publication Critical patent/JP2015064671A/en
Application granted granted Critical
Publication of JP6145011B2 publication Critical patent/JP6145011B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To robustly normalize a sentence even when the sentence is hardly normalized robustly by syntax analysis.SOLUTION: A sentence normalization system 10 includes: an input part 11 which inputs a sentence; a morphological analysis part 12 which divides the sentence into a word string and estimates a part of speech of each divided word; a separation part 13 separates the divided word string into a content part including a content of the sentence and a sentence end based on the estimated part of speech of each word; a content word string extraction part 14 which extracts a content word string which is content information showing the content of the sentence from an independent word included in the content part; a semantic label string extraction part 15 which extracts a semantic label string which is function information showing a functional expression of the sentence from the sentence end; and a symbol string combining part 16 which combines the content word string and the semantic label string, and outputs it as a normalized expression of the sentence.

Description

本発明は、自然言語等で記述された文を正規化する文正規化システム、文正規化方法及び文正規化プログラムに関する。   The present invention relates to a sentence normalization system, a sentence normalization method, and a sentence normalization program that normalize sentences described in a natural language or the like.

従来から、自然言語で記述された文の意味を解釈して、解釈した意味に基づき分析や応答を行うシステムが知られている。例えば、特許文献1には、入力したテキストを単語列に分解した後、自然言語に対する構文解析処理を行って構文木を得て、更に構文木から意味情報を抽出して情報検索を行う方法が開示されている。   Conventionally, a system that interprets the meaning of a sentence described in a natural language and performs analysis and response based on the interpreted meaning is known. For example, Patent Document 1 discloses a method in which input text is decomposed into word strings, a syntax analysis process is performed on a natural language to obtain a syntax tree, and semantic information is further extracted from the syntax tree to perform information retrieval. It is disclosed.

特許第4738523号公報Japanese Patent No. 4738523

自然言語で記述された文からの意味情報の抽出は、文の意味に与える影響の薄い表層上の揺らぎを除去して文意と一対一対応する記号列への文の正規化を行うことに相当する。自然言語では、ほぼ同一の意味を書き示すのに多様な表現をとることができる。能動態や受動態、類義語、語尾表現等の多様な言い換えを考慮すると、同一の意味にとることのできる文の揺らぎのバリエーションは膨大である。実用的な自然言語処理システムにはこれら多くの文の揺らぎを頑健に受理し処理することが望まれる。そのため、前出の揺らぎを除去し文を正規化する技術は、情報検索や対話、翻訳等の自然言語を受理する多くの応用において非常に重要である。   Extraction of semantic information from sentences written in natural language is to normalize sentences to symbol strings that correspond one-to-one with the meaning of sentences by removing fluctuations on the surface that have little effect on the meaning of sentences. Equivalent to. In natural language, various expressions can be used to write almost the same meaning. Considering various paraphrasing such as active voice, passive voice, synonym, ending expression, etc., there are a huge number of variations of sentence fluctuations that can have the same meaning. A practical natural language processing system is required to robustly accept and process these many fluctuations. Therefore, the technology that removes the fluctuations described above and normalizes the sentence is very important in many applications that accept natural language such as information retrieval, dialogue, and translation.

特許文献1等に示される従来技術においては、この文正規化は構文解析処理を基礎として行われている。構文解析により主語、動詞、目的語といった文の構成要素を明確にして解析を行うことができ、文意の深い解析が可能である。   In the prior art disclosed in Patent Document 1 and the like, this sentence normalization is performed on the basis of syntax analysis processing. By syntactic analysis, the constituent elements of the sentence such as the subject, verb, and object can be clarified and analyzed.

しかしながら、文が口語的で文法上の崩れがあったり、音声認識等において伝送手段に起因する誤りを含んだりする場合には、構文解析は必ずしも頑健に動作しない。   However, if the sentence is colloquial and has grammatical disruption or contains errors due to transmission means in speech recognition or the like, syntax analysis does not always work robustly.

本発明は、上記の問題点に鑑みてなされたものであり、構文解析では頑健な正規化が困難な文に対しても頑健に正規化を行うことを可能とする文正規化システム、文正規化方法及び文正規化プログラムを提供することを目的とする。   The present invention has been made in view of the above problems, and a sentence normalization system and sentence normalization that can robustly normalize a sentence that is difficult to normalize robustly by syntax analysis. An object of the present invention is to provide a normalization method and a sentence normalization program.

上記の目的を達成するために、本発明に係る文正規化システムは、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、を備える。   In order to achieve the above object, a sentence normalization system according to the present invention divides a sentence input by the input means into a word string and estimates the part of speech of each divided word. Morphological analysis means, separation means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word, and separation means from the sentence Content information extracting means for extracting the content information indicating the content of the sentence from the independent words included in the separated content part, and function information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means. Function information extracting means for extracting, content information extracted by the content information extracting means, and output means for outputting the function information extracted by the function information extracting means as a normalized expression of the sentence , Comprising a.

本発明に係る文正規化システムでは、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報と機能情報とが抽出されて、それらが文の正規化された表現として出力される。即ち、本発明に係る文正規化システムでは、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明に係る文正規化システムによれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。   In the sentence normalization system according to the present invention, a word string obtained from a sentence is separated into a content part and a sentence end, content information and function information are extracted from each, and these are output as a normalized expression of the sentence Is done. That is, in the sentence normalization system according to the present invention, normalization is performed from a word string that operates more fundamentally and robustly, without using a syntactic analysis that is likely to be affected by grammatical disruptions that often appear in colloquial sentences. Thereby, according to the sentence normalization system which concerns on this invention, it can normalize robustly also with respect to the sentence which is hard to normalize robustly by syntax analysis.

分離手段は、単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とすることとしてもよい。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。   The separating means may use a section from the word string up to the rearmost independent word as a content part and a section after the section as a sentence end. According to this configuration, the sentence can be appropriately and reliably separated into the content part and the sentence end, and as a result, normalization can be performed appropriately.

内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断することとしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。   The content information extraction means determines whether or not the word extracted as the content information includes a question word, or whether or not the last word among the words extracted as the content information is a noun corresponding to the question sentence It is also possible to determine whether the sentence is a question sentence and to determine the type of the question sentence based on the question word or the last word. According to this configuration, it is possible to appropriately normalize the question sentence.

出力手段は、内容情報を自立語が文に登場した順序に応じたものとし、機能情報をソートして出力することとしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。   The output means may set the content information according to the order in which the independent words appear in the sentence, and sort and output the function information. It is considered that the meaning of the order with respect to the meaning is large for the content word sequence, and the meaning of the order with respect to the meaning of the meaning label sequence is small. Therefore, according to this configuration, appropriate normalization can be performed. In particular, since the semantic label string is sorted, normalization that enables comparison between sentences can be performed by ignoring the order of the semantic label string.

形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなすこととしてもよい。また、予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなすこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。   Of the independent words included in the word string divided by the morphological analysis means, a preset independent word may be regarded as an attached word. Further, the target word may be regarded as an attached word according to the word immediately before the target word corresponding to the preset independent word, the part of speech of the previous word, or the utilization form of the previous word. According to these configurations, it is possible to appropriately handle words that should be attached words in normalization, and as a result, normalization can be performed appropriately.

ところで、本発明は、上記のように文正規化システムの発明として記述できる他に、以下のように文正規化方法及び文正規化プログラムの発明としても記述することができる。これはカテゴリ等が異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。   By the way, the present invention can be described as an invention of a sentence normalization system as described above, and can also be described as an invention of a sentence normalization method and a sentence normalization program as follows. This is substantially the same invention only in different categories and the like, and has the same operations and effects.

即ち、本発明に係る文正規化方法は、文正規化システムの動作方法である文正規化方法であって、文を入力する入力ステップと、入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、分離ステップにおいて文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出ステップと、分離ステップにおいて文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出ステップと、内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力ステップと、を含む。   That is, the sentence normalization method according to the present invention is a sentence normalization method that is an operation method of a sentence normalization system, and includes an input step for inputting a sentence, and a sentence input in the input step is divided into word strings. A morpheme analysis step for estimating the part of speech of each word divided together with the word string divided in the morpheme analysis step into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word From the independent step included in the content part separated from the sentence in the separation step, the content information extraction step for extracting the content information indicating the content of the sentence, and the end of the sentence separated from the sentence in the separation step, A function information extraction step for extracting function information indicating the function expression of the sentence, the content information extracted in the content information extraction step, and the function information extraction means; Including an output step of outputting the feature information extracted as a normalized representation of the statement I.

また、本発明に係る文正規化プログラムは、コンピュータを、文を入力する入力手段と、入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、分離手段によって文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、分離手段によって文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を文の正規化された表現として出力する出力手段と、として機能させる。   The sentence normalization program according to the present invention includes a computer, an input means for inputting a sentence, a morpheme analyzing means for dividing a sentence input by the input means into a word string and estimating a part of speech of each divided word; , Separation means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word, and contents separated from the sentence by the separation means Content information extracting means for extracting content information indicating the content of the sentence from independent words included in the section, and functional information indicating function information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means An output means for outputting the content information extracted by the extraction means, the content information extraction means, and the function information extracted by the function information extraction means as a normalized expression of a sentence; To to function.

本発明では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から正規化が行われる。これにより、本発明によれば、構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。   In the present invention, normalization is performed from a word sequence that operates more fundamentally and robustly, without using parsing that is likely to be affected by grammatical disruptions that often appear in colloquial sentences. Thus, according to the present invention, it is possible to perform normalization robustly even for sentences that are difficult to normalize robustly by syntax analysis.

本発明の実施形態に係る文正規化システムの機能構成を示す図である。It is a figure which shows the function structure of the sentence normalization system which concerns on embodiment of this invention. 内容部と文末とへの文の分離例を示す図である。It is a figure which shows the example of isolation | separation of the sentence into a content part and a sentence end. 単語の表記と識別子とを対応付けた対応表である。It is the correspondence table which matched the notation of a word, and an identifier. 表記と意味ラベルとを対応付けた対応表である。6 is a correspondence table in which notations and semantic labels are associated with each other. 入力文と当該入力文に対応する正規化記号列とを示す表である。It is a table | surface which shows an input sentence and the normalization symbol string corresponding to the said input sentence. 本発明の実施形態に係る文正規化システムのハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the sentence normalization system which concerns on embodiment of this invention. 本発明の実施形態に係る文正規化システムで実行される処理である文正規化方法を示すフローチャートである。It is a flowchart which shows the sentence normalization method which is a process performed with the sentence normalization system which concerns on embodiment of this invention. 本発明の実施形態に係る文正規化プログラムの構成を、記録媒体と共に示す図である。It is a figure which shows the structure of the sentence normalization program which concerns on embodiment of this invention with a recording medium.

以下、図面と共に本発明に係る文正規化システム、文正規化方法及び文正規化プログラムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。   Hereinafter, embodiments of a sentence normalization system, a sentence normalization method, and a sentence normalization program according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.

図1に本実施形態に係る文正規化システム10を示す。文正規化システム10は、文を入力して、入力した文を正規化するシステムである。文正規化システム10による正規化の結果は、文に基づき応答を行うシステムに用いられる。例えば、ユーザの発話の音声認識結果の文に基づいて機能を自動的に実行するシステムで用いられる。入力される文(テキスト)は、例えば、自然言語で記述された短文である。更に、入力される文は口語文であってもよい。但し、正規化対象の文は、必ずしも上記のものに限られず、任意の文を正規化対象とすることとしてもよい。   FIG. 1 shows a sentence normalization system 10 according to this embodiment. The sentence normalization system 10 is a system that inputs a sentence and normalizes the input sentence. The result of normalization by the sentence normalization system 10 is used in a system that makes a response based on the sentence. For example, it is used in a system that automatically executes a function based on a speech recognition result sentence of a user's utterance. The input sentence (text) is, for example, a short sentence described in a natural language. Further, the input sentence may be a spoken sentence. However, the sentence to be normalized is not necessarily limited to the above, and any sentence may be targeted for normalization.

文の正規化は、一定のルールに基づいて、文の意味に与える影響の薄い表層上の揺らぎを除去して、文意と一対一対応する記号列等の予め設定された形式に変更することである。上述したように、例えば、口語文等の自然言語で記述された文は、同じ文意であっても様々な表現がある。即ち、文に表層上の揺らぎが存在する。正規化は、同一の文意の文を一律の表現(正規化した表現)にして、正規化の結果が用いられるシステムで文の示す意味を用いやすいようにするためのものである。具体的に、どのような形式に正規化するかについては後述する。   Sentence normalization is based on a certain rule, removing fluctuations on the surface that have little effect on the meaning of the sentence, and changing it to a preset format such as a symbol string that has a one-to-one correspondence with the meaning of the sentence. It is. As described above, for example, sentences described in a natural language such as a colloquial sentence have various expressions even if they have the same sentence meaning. That is, there is a fluctuation on the surface layer in the sentence. Normalization is to make sentences having the same meaning in a uniform expression (normalized expression) so that the meaning indicated by the sentence can be easily used in a system in which the result of normalization is used. Specifically, the format to be normalized will be described later.

文正規化システム10は、具体的には、サーバ装置やPC(Personal Computer)等のコンピュータにより実現される。なお、文正規化システム10は、必ずしも1台のコンピュータによって実現されている必要はなく、互いに接続された複数台のコンピュータによるコンピュータシステムによって実現されてもよい。また、文正規化システム10は、必要な情報を入力するため、あるいは生成した情報を出力するために他の装置と接続されており、情報の送受信が可能となっていてもよい。   Specifically, the sentence normalization system 10 is realized by a computer such as a server device or a PC (Personal Computer). The sentence normalization system 10 is not necessarily realized by a single computer, and may be realized by a computer system including a plurality of computers connected to each other. In addition, the sentence normalization system 10 may be connected to another device to input necessary information or to output generated information, and may be capable of transmitting and receiving information.

引き続いて、文正規化システム10の機能構成を説明する。図1に示すように文正規化システム10は、入力部11と、形態素解析部12と、分離部13と、内容語列抽出部14と、意味ラベル列抽出部15と、記号列結合部16とを備えて構成される。   Subsequently, the functional configuration of the sentence normalization system 10 will be described. As shown in FIG. 1, the sentence normalization system 10 includes an input unit 11, a morpheme analysis unit 12, a separation unit 13, a content word string extraction unit 14, a meaning label string extraction unit 15, and a symbol string combination unit 16. And is configured.

入力部11は、正規化対象の文を入力する入力手段である。具体的には、入力部11は、外部の装置あるいはモジュールから文(テキスト情報)を受信することで文を入力する。あるいは、入力部11は、ユーザの文の入力を受け付けることで文を入力する。入力部11は、入力した文を形態素解析部12に出力する。   The input unit 11 is input means for inputting a sentence to be normalized. Specifically, the input unit 11 inputs a sentence by receiving a sentence (text information) from an external device or module. Or the input part 11 inputs a sentence by receiving the input of a user's sentence. The input unit 11 outputs the input sentence to the morphological analysis unit 12.

形態素解析部12は、入力部11から入力された文を単語列(形態素列)に分割すると共に分割した各単語の品詞を推定する形態素解析手段である。形態素解析部12は、分割した各単語の品詞のみでなくそれらの活用形を推定してもよい。単語列への分割及び品詞や活用形の推定を行う形態素解析の実現方法については、従来から当業者に広く知られている方法を用いることができる。   The morpheme analyzer 12 is a morpheme analyzer that divides the sentence input from the input unit 11 into word strings (morpheme strings) and estimates the part of speech of each divided word. The morphological analysis unit 12 may estimate not only the part of speech of each divided word but also their utilization form. As a method for realizing morphological analysis for dividing into word strings and estimating parts of speech and utilization forms, methods that have been widely known to those skilled in the art can be used.

一例として、入力文が「私のアイス食べたでしょう」であった場合、形態素解析部12による形態素解析結果である単語列及び当該単語の品詞は、「私:名詞」「の:助詞」「アイス:名詞」「食べる:動詞」「た:助動詞」「でしょ:助動詞」「う:助動詞」のようになる。なお、上記の記載は「文から分割した単語:推定した当該単語の品詞」である。単語列は、単語が文に登場(出現)した順番で並んだものである。単語分割の単位は、処理の本質には影響がなく、形態素解析の実装により異なってもよい。また、動詞等の活用語については、原型(終止形)への変換をおこなってもよい。この変換は、形態素解析処理に一般的に備えられる機能である。本実施形態においては、活用語は原型に変換されたものとして取り扱う。形態素解析部12は、文から分割した単語列及び推定した各単語の品詞を示す情報を分離部13に出力する。   As an example, when the input sentence is “I ate my ice cream”, the word string and the part of speech of the morphological analysis result by the morphological analysis unit 12 are “I: noun”, “no: particle”, “ Ice: Noun, Eat: Verb, Ta: Auxiliary verb, Doshi: Auxiliary verb, U: Auxiliary verb. In addition, said description is "the word divided | segmented from the sentence: the estimated part of speech of the said word." The word strings are arranged in the order in which words appear (appear) in the sentence. The unit of word division does not affect the essence of processing, and may differ depending on the implementation of morphological analysis. In addition, verbs such as verbs may be converted to a prototype (end form). This conversion is a function generally provided in the morphological analysis process. In the present embodiment, the utilization word is handled as being converted into a prototype. The morphological analysis unit 12 outputs information indicating the word string divided from the sentence and the estimated part of speech of each word to the separation unit 13.

分離部13は、形態素解析部12から入力された単語列を、形態素解析の結果により得られる単語境界と推定された各単語の品詞とに基づいて、当該文の内容を含む内容部と文末とに分離する分離手段である。具体的には、分離部13は、まず各単語の品詞に基づき、単語が自立語であるか付属語であるかの判断を行う。例えば、当該判断は一般的な文法に従って行う。即ち、分離部13は、予め設定した品詞である名詞、動詞、形容詞、形容動詞、副詞及び感動詞等の品詞の単語を自立語と判断する。また、分離部13は、自立語と判断されなかった単語を付属語と判断する。なお、副詞については、流儀により自立語に含めてもよいし、含めなくてもよい。   Based on the word boundary obtained from the result of the morphological analysis and the estimated part of speech of each word, the separation unit 13 includes a content part including the content of the sentence, a sentence ending, It is the separation means which isolate | separates into. Specifically, the separation unit 13 first determines whether the word is an independent word or an adjunct word based on the part of speech of each word. For example, the determination is made according to general grammar. That is, the separation unit 13 determines words of part of speech such as nouns, verbs, adjectives, adjective verbs, adverbs, and emotional verbs that are preset parts of speech as independent words. Further, the separation unit 13 determines a word that has not been determined as an independent word as an attached word. Note that adverbs may or may not be included in self-supporting words by manner.

続いて、分離部13は、文の先頭から、最も後ろに位置する自立語までの区間の連続した単語列を内容部する。また、分離部13は、内容部の次の単語から文末尾までの連続した単語列を文末とする。結果として、文末は、文末尾から連続する付属語の区間ということになる。例外として、形態素解析部12から入力された単語列に含まれる自立語のうち、予め設定された単語である「いい」「よい」「こと」「ある」「ない」「できる」「よろしく」(「よろしい」)といった内容語としての意味の薄い自立語を付属語と同様にみなしてもよい。   Subsequently, the separation unit 13 includes a content word of a continuous word string from the beginning of the sentence to the last independent word. Further, the separating unit 13 sets a continuous word string from the word next to the content part to the end of the sentence as the end of the sentence. As a result, the end of the sentence is an interval of attached words that continues from the end of the sentence. As an exception, among the independent words included in the word string input from the morphological analysis unit 12, the preset words “good”, “good”, “thing”, “yes”, “not”, “done”, “respect” ( A self-supporting word that has a low meaning as a content word such as “OK” may be regarded as an attached word.

また、予め設定された単語である、これらの自立語の一部又は全部を、当該予め設定された単語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて(依存して)当該対象単語を付属語とみなすか否かを判断してもよい。例えば、形容詞「いい」は、「〜していいですか」のように、直前に助詞「て」「で」がある場合には本来の語義である「良い・悪い」の意味を持たず許可を求める機能表現と解釈するのが自然だが、「それはいい」のように直前に助詞「て」「で」がない場合には「良い・悪い」の意味を持つと解釈するのが自然である。分離部13は、予め自立語を付属語とみなすための上記に従ったルールを記憶しておき、当該ルールに基づき自立語を付属語とみなすか否かの判断を行う。   Further, a part or all of these independent words, which are preset words, can be obtained by adding the word immediately before the target word corresponding to the preset word, the part of speech of the immediately preceding word, or the immediately preceding word. Whether or not the target word is regarded as an attached word may be determined according to the usage form (depending on). For example, the adjective “good” is permitted without the meaning of “good / bad”, which is the original meaning when the particles “te” and “de” are immediately preceded, such as “can I do it?” It is natural to interpret it as a functional expression that asks for it, but it is natural to interpret it as having a meaning of “good / bad” when there is no particle “te” or “de” immediately before, such as “it is good”. . The separation unit 13 stores in advance a rule according to the above for regarding an independent word as an attached word, and determines whether or not the independent word is regarded as an attached word based on the rule.

なお、自立語を付属語とみなす判断は、文正規化システム10全体で行われることとしてもよい。例えば、一旦分離部13において自立語が付属語とみなすものされた場合には、以降の処理においても当該自立語は付属語として扱われる。あるいは、自立語及び付属語の別が用いられる機能部(例えば、分離部13及び内容語列抽出部14)の何れかにおいて当該判断が行われて、当該機能部における処理でのみ当該自立語は付属語として扱われることとしてもよい。   Note that the determination that an independent word is regarded as an attached word may be made by the sentence normalization system 10 as a whole. For example, once the independent word is regarded as an auxiliary word in the separating unit 13, the independent word is treated as an auxiliary word in the subsequent processing. Alternatively, the determination is performed in any one of the function units (for example, the separation unit 13 and the content word string extraction unit 14) where the distinction between the independent words and the attached words is used, and the independent words are only obtained by the processing in the functional unit. It may be treated as an adjunct.

図2に内容部と文末とへの文の分離例を示す。図2に示すように、入力文が「私のアイス食べたでしょう」であった場合、文の先頭から、最も後ろに位置する自立語である「食べる:動詞」までの連続した単語列を内容部とする。また、最も後ろに位置する自立語の次の単語である「た:助動詞」から文末尾までの連続した単語列を文末とする。分離部13は、上記の分離によって内容部とされた単語列を内容語列抽出部14に、文末とされた単語列を意味ラベル列抽出部15に出力する。   FIG. 2 shows an example of sentence separation into a content part and a sentence end. As shown in Fig. 2, if the input sentence is "I would have eaten my ice", a continuous word string from the beginning of the sentence to the last independent word "eat: verb" The content part. Further, a continuous word string from “ta: auxiliary verb”, which is the next word of the independent word located at the back to the end of the sentence, is set as the end of the sentence. The separation unit 13 outputs the word string that is the content part by the above separation to the content word string extraction unit 14 and the word string that is the sentence end to the semantic label string extraction unit 15.

内容語列抽出部14は、分離部13から入力された内容部に含まれる自立語から、入力文の内容を示す内容情報を抽出する内容情報抽出手段である。具体的には、内容語列抽出部14は、内容部から、入力文の内容を示す単語列である内容語列を内容情報として抽出する。内容語列抽出部14は、内容部に含まれる単語のうち自立語に当たる単語を全て抽出し、内容語列とする。内容語列は、抽出された単語が文に登場した順番で並んだものとしてもよい。   The content word string extraction unit 14 is content information extraction means for extracting content information indicating the content of the input sentence from the independent words included in the content part input from the separation unit 13. Specifically, the content word string extraction unit 14 extracts, as content information, a content word string that is a word string indicating the content of the input sentence from the content part. The content word string extraction unit 14 extracts all words corresponding to independent words from the words included in the content part, and sets them as the content word string. The content word string may be arranged in the order in which the extracted words appear in the sentence.

また、内容語列抽出部14は、内容語列に含まれる単語のうち、類義語又は同義語としてグループ化が可能な単語を、グループを一意に示す識別子に置き換えてもよい。例えば、「私」と「僕」との単語は何れも一人称単数を示す代名詞で同義であると考えてよいため、何れの単語が内容語列に含まれる場合も、<代名詞:一人称単数>という識別子に置き換えてもよい。この置き換えは、例えば、予め図3に示すような単語の表記と識別子とを対応付けた対応表を内容語列抽出部14に記憶させておき、当該対応表に基づいて行うことができる。   The content word string extraction unit 14 may replace a word that can be grouped as a synonym or synonym among the words included in the content word string with an identifier that uniquely indicates the group. For example, the words “I” and “I” may be considered synonymous with pronouns indicating the first person singular, so if any word is included in the content word string, <pronoun: first person singular> It may be replaced with an identifier. This replacement can be performed, for example, based on the correspondence table in which the correspondence table in which the word notations and identifiers shown in FIG. 3 are associated in advance is stored in the content word string extraction unit 14.

また、内容語列抽出部14は、必須ではないが次に述べる方法で疑問文判定処理を行うこととしてもよい。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれるか否かを判断することで入力文が疑問文であるか否かを判定する。予め設定された疑問詞は、例えば、「何」「いつ」といった単語である。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれると判断した場合には、内容語列から疑問詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部14は、内容語列に予め設定された疑問詞が含まれないと判断した場合には、入力文が疑問文ではないと判定する。   Further, the content word string extraction unit 14 may perform the question sentence determination process by the method described below, although it is not essential. The content word string extraction unit 14 determines whether or not the input sentence is a question sentence by determining whether or not a question word set in advance is included in the content word string. The preset question words are, for example, words such as “what” and “when”. When the content word string extraction unit 14 determines that the question word set in advance is included in the content word string, it removes the question word from the content word string and determines that the input sentence is a question sentence. When the content word string extraction unit 14 determines that the question word set in advance is not included in the content word string, the content word string extraction unit 14 determines that the input sentence is not a question sentence.

また、内容語列抽出部14は、上記のように入力文が疑問文であると判定した場合に、当該疑問詞に基づき当該疑問文の種別を判断する。例えば、「何」であればWhat、「いつ」であればWhenというように疑問文が5W1H(Who(誰が)、What(何を)、When(いつ)、Where(どこで)、Why(なぜ)、How(どのように))の何れを聞いているのかの種別を判断する。疑問文の種別は、例えば、予め設定された疑問詞に対応付けられている。上記の判断は、例えば、予め図3に示すような疑問詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた対応表を内容語列抽出部14に記憶させておき、当該対応表に基づいて行うことができる。   Further, when it is determined that the input sentence is a question sentence as described above, the content word string extraction unit 14 determines the type of the question sentence based on the question word. For example, “What” is “What”, “When” is “When”, and the interrogative sentence is 5W1H (Who (who), What (what), When (when)), Where (where), Why (why). , How (how)) is determined. The type of question sentence is associated with, for example, a preset question word. The above determination is made, for example, by preliminarily storing the correspondence table in which the notation of the interrogative word as shown in FIG. 3 is associated with the questionable word type and the questionable sentence type in the content word string extracting unit 14. This can be done based on the correspondence table.

あるいは、内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であるか否かを判断することで入力文が疑問文であるか否かを判定する。疑問文に対応する名詞とは、例えば、「時間」「長さ」「理由」といった、5W1Hの何れかに相当する抽象名詞である。内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞であると判断した場合には、内容語列から当該名詞を取り除き、入力文が疑問文であると判定する。内容語列抽出部14は、内容語列のうち末尾の単語が疑問文に対応する予め設定された名詞ではないと判断した場合には、入力文が疑問文ではないと判定する。   Alternatively, the content word string extraction unit 14 determines whether or not the input sentence is a question sentence by determining whether or not the last word in the content word string is a preset noun corresponding to the question sentence. judge. The noun corresponding to the question sentence is an abstract noun corresponding to any of 5W1H such as “time”, “length”, and “reason”. When the content word string extraction unit 14 determines that the last word in the content word string is a preset noun corresponding to the question sentence, the noun is removed from the content word string, and the input sentence is the question sentence. It is determined that When it is determined that the last word in the content word string is not a preset noun corresponding to the question sentence, the content word string extraction unit 14 determines that the input sentence is not a question sentence.

また、内容語列抽出部14は、上記のように入力文が疑問文であると判断した場合に、当該末尾の単語に基づき当該疑問文の種別を判断する。疑問文の種別は、例えば、疑問文に対応する予め設定された名詞に対応付けられている。「時間」であれば「When」、「長さ」であれば「HowMuch」、「理由」であれば「Why」との疑問文の種別がそれぞれ対応付けられている。上記の判断は、例えば、予め疑問文に対応する予め設定された名詞の表記と、疑問詞である旨及び疑問文の種別とを対応付けた情報(例えば、図3に示す対応表)を内容語列抽出部14に記憶させておき、当該情報に基づいて行うことができる。   When the content word string extraction unit 14 determines that the input sentence is a question sentence as described above, the content word string extraction unit 14 determines the type of the question sentence based on the last word. The question sentence type is associated with, for example, a preset noun corresponding to the question sentence. The type of question sentence is “When” for “time”, “HowMuch” for “length”, and “Why” for “reason”. For example, the above determination includes information (for example, the correspondence table shown in FIG. 3) that associates a notation of a preset noun corresponding to a question sentence in advance with a question word and a question sentence type. It can be stored based on the information stored in the word string extraction unit 14.

上記の判断の具体例を示す。抽出した内容語列が「ご飯」「何」というものであった場合、「何」は「What」の種別に相当する疑問詞であるので内容語列から取り除き、文を「What」の種別に相当する疑問文であると判断する。また、抽出した内容語列が「富士山」「高さ」というものであった場合、内容語列の末尾の単語である「高さ」は「HowMuch」に相当する抽象名詞であるので内容語列から取り除き、文を「HowMuch」の種別に相当する疑問文であると判断する。   A specific example of the above determination will be shown. If the extracted content word sequence is “rice” or “what”, “what” is a question word corresponding to the type of “What”, so it is removed from the content word sequence and the sentence is changed to the type of “What”. Judged as the corresponding question sentence. If the extracted content word string is “Mt. Fuji” or “Height”, the word “height”, which is the last word in the content word string, is an abstract noun corresponding to “HowMuch”. It is determined that the sentence is a question sentence corresponding to the type of “HowMuch”.

内容語列抽出部14は、上記の処理の結果として、内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の3つの情報を得る。内容語列抽出部14は、これらの情報を記号列結合部16に出力する。但し、文が疑問文であるか否かの判定、及び文が疑問文である場合には疑問文の種別の判断は必須ではなく、これらの判定及び判断結果の情報の出力は必須ではない。   As a result of the above processing, the content word string extraction unit 14 determines the content word string, the determination result of whether or not the sentence is a question sentence, and, if the sentence is a question sentence, three pieces of information of the question sentence type Get. The content word string extraction unit 14 outputs these pieces of information to the symbol string combination unit 16. However, it is not essential to determine whether or not the sentence is a question sentence, and to determine the type of question sentence when the sentence is a question sentence, and it is not essential to output information on these determinations and determination results.

意味ラベル列抽出部15は、分離部13から入力された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段である。文の機能表現を示す機能情報は、例えば、「依頼」「否定」「完了」「推量」等の文全体としてどのような意図を表すかを示すものである。本実施形態では、意味ラベル列抽出部15は、機能情報として以下に示すような意味ラベルの集合からなる意味ラベル列を抽出する。意味ラベル列抽出部15は、予め図4に示すような表記と意味ラベルとを対応付けた対応表を記憶しておき、当該対応表に基づいて意味ラベルの抽出を行う。意味ラベル列抽出部15は、文末に含まれる連続した単語列(1つの単語も含まれる)の表記と、記憶した対応表の表記との一致を判断し、それらが一致した場合には、対応する意味ラベルを意味ラベル列に加える。文末と図4の対応表の表記との照合は単純な文字列一致に基づいて行ってもよい。あるいは、単純な文字列一致ではなく、直前の単語やその活用形を考慮して意味ラベルの推定を行ってもよい。例えば、特開2011−145844号公報(述部機能表現正規化方法、その装置及びプログラム、特許文献2)及び特開2012−203584号公報(述部正規化装置、方法、及びプログラム、特許文献3)に示される方法で行われる。   The meaning label string extraction unit 15 is a function information extraction unit that extracts function information indicating the function expression of the sentence from the sentence end input from the separation unit 13. The functional information indicating the functional expression of the sentence indicates what kind of intention is expressed as a whole sentence such as “request”, “denial”, “complete”, and “estimation”. In the present embodiment, the semantic label string extraction unit 15 extracts a semantic label string including a set of semantic labels as described below as function information. The semantic label string extraction unit 15 stores a correspondence table in which notations and semantic labels as shown in FIG. 4 are associated in advance, and extracts semantic labels based on the correspondence table. The semantic label string extraction unit 15 determines whether the notation of the continuous word string (including one word) included at the end of the sentence matches the notation of the stored correspondence table, and if they match, To the semantic label column. The collation between the end of the sentence and the notation of the correspondence table of FIG. 4 may be performed based on simple character string matching. Alternatively, instead of simple character string matching, the semantic label may be estimated in consideration of the immediately preceding word or its utilization form. For example, Japanese Patent Application Laid-Open No. 2011-145844 (predicate function expression normalization method, apparatus and program thereof, Patent Document 2) and Japanese Patent Application Laid-Open No. 2012-203584 (Predicate normalization apparatus, method and program, Patent Document 3). ).

例えば、図2に示す例文の場合であれば、「た」が「完了」、「でしょ」が「推量」の意味ラベルに対応するため、意味ラベル列抽出部15は、「完了」「推量」の2つの意味ラベルを意味ラベル列として抽出する。意味ラベル列抽出部15は、抽出した意味ラベル列を記号列結合部16に出力する。   For example, in the case of the example sentence shown in FIG. 2, since “ta” corresponds to the meaning label “complete” and “decho” corresponds to the meaning label “estimation”, the meaning label string extraction unit 15 performs “completion” Are extracted as a semantic label string. The meaning label string extraction unit 15 outputs the extracted meaning label string to the symbol string combination unit 16.

記号列結合部16は、内容語列抽出部14から入力された内容語列、及び意味ラベル列抽出部15から入力された意味ラベル列を連結して正規化記号列を生成し、正規化記号列に基づく文の正規化された表現を示す情報を出力する出力手段である。例えば、記号列結合部16は、入力文に基づき応答を行うシステムに当該情報を送信することとで当該出力を行う。また、それ以外の任意の出力先に当該情報を出力することとしてもよい。   The symbol string combination unit 16 generates a normalized symbol string by concatenating the content word string input from the content word string extraction unit 14 and the meaning label string input from the meaning label string extraction unit 15, and generates a normalized symbol string. An output unit that outputs information indicating a normalized expression of a sentence based on a column. For example, the symbol string coupling unit 16 performs the output by transmitting the information to a system that makes a response based on the input sentence. Further, the information may be output to any other output destination.

記号列結合部16は、内容語列抽出部14から文が疑問文であるとの判定結果が入力された場合には、意味ラベル列にその旨を示す「疑問」を加える。また、記号列結合部16は、内容語列抽出部14から入力された疑問文の種別を示す情報も意味ラベル列に加える。正規化記号列の生成において、記号列結合部16は、内容語列を入力文に登場した順序で内容語が並んだ列として扱う。即ち、記号列結合部16は、内容情報を自立語が文に登場した順序に応じたものとする。あるいは、内容語を、内容語の文字列に従って一定の基準でソートしてもよい。この基準は、例えば、50音順又はアルファベット順である。正規化の手順の中でソートを行うことは、内容語列を入力文中の順序を無視して扱うことに相当する。   When the determination result that the sentence is a question sentence is input from the content word string extraction unit 14, the symbol string combination unit 16 adds “question” indicating that to the meaning label string. The symbol string combination unit 16 also adds information indicating the type of question sentence input from the content word string extraction unit 14 to the semantic label string. In the generation of the normalized symbol string, the symbol string coupling unit 16 treats the content word string as a string in which the content words are arranged in the order of appearance in the input sentence. That is, the symbol string coupling unit 16 assumes that the content information corresponds to the order in which the independent words appear in the sentence. Alternatively, the content words may be sorted on a constant basis according to the character string of the content words. This reference is, for example, in the order of 50 notes or alphabetical order. Sorting in the normalization procedure is equivalent to handling the content word string ignoring the order in the input sentence.

また、記号列結合部16は、意味ラベル列を、意味ラベルの文字列に従って一定の基準でソートしてもよい。この基準は、例えば、上記と同様の50音順又はアルファベット順である。また、疑問文判定結果を加えた結果、意味ラベル列に重複が生じる場合があるので、その重複は取り除くこととしてもよい。   Further, the symbol string coupling unit 16 may sort the meaning label string according to a character string of the meaning label according to a certain standard. This standard is, for example, the same as the above in the order of the Japanese syllabary or alphabetical order. Further, as a result of adding the question sentence determination result, duplication may occur in the semantic label string, and the duplication may be removed.

以上の処理により、疑問文判定処理を内容語列抽出部14において行っていた場合は、入力文のいずれの位置に疑問詞があった場合も正規化記号列は同一になるとい効果が得られる。また、「会議はいつ」と「会議の時間」といったように、疑問詞を使った疑問文と使わない疑問文とが内容語列「会議」、意味ラベル列「疑問」、「When」という同一の正規化記号列に変換されることにより、同一の意味とみなすことができる。   With the above processing, when the question sentence determination process is performed in the content word string extraction unit 14, the normalized symbol string is the same regardless of the position of the question word in any position of the input sentence. . In addition, the question sentence using the question word and the question sentence not used, such as “when is the meeting” and “the time of the meeting”, are the same content word string “meeting”, meaning label string “question”, “When” Can be regarded as having the same meaning.

図5に入力文と、記号列結合部16によって得られる、当該入力文に対応する正規化記号列とを示す。図5の表の正規化パターンの欄に示される正規化記号列の例では、Contentとの文字列に続く単語列が内容語列、Labelとの文字列に続く単語列が意味ラベル列をそれぞれ示している。なお、ここでの単語列には、単語が置き換えられた識別子(例えば、<代名詞:一人称単数>)も含まれる。   FIG. 5 shows an input sentence and a normalized symbol string corresponding to the input sentence obtained by the symbol string coupling unit 16. In the example of the normalization symbol string shown in the normalization pattern column of the table of FIG. 5, the word string following the character string “Content” is the content word string, and the word string following the character string “Label” is the meaning label string. Show. The word string here also includes an identifier (for example, <pronoun: first person singular>) in which the word is replaced.

上記の通り、正規化記号列は、内容語列と意味ラベル列という2つの識別子配列(単語列)の集合である。記号列結合部16は、この集合を、図5の正規化パターンの欄に示すように一定のルールに従って識別子配列を文字列に展開することとしてもよい。この文字列を入力文から一意に定まる正規化パターン(文の正規化された表現)とみなすことができる。記号列結合部16は、上記の正規化パターンを出力する。なお、文の正規化された表現は、必ずしも図5に示すような正規化パターンである必要はなく、正規化記号列に基づく情報であれば任意の形式をとることができる。   As described above, the normalization symbol string is a set of two identifier arrays (word strings), which are a content word string and a semantic label string. The symbol string coupling unit 16 may expand the identifier array into a character string according to a certain rule as shown in the column of the normalization pattern in FIG. This character string can be regarded as a normalization pattern (normalized expression of the sentence) uniquely determined from the input sentence. The symbol string coupling unit 16 outputs the above normalization pattern. It should be noted that the normalized expression of the sentence is not necessarily a normalization pattern as shown in FIG. 5, and can take any form as long as it is information based on the normalization symbol string.

複数の文から得られる正規化パターンが同一であれば、それらの文は同義であるとみなすことができる。例えば、図5において「私のアイス食べたでしょう」という文と「私アイス食べたい」という文とは意味ラベル列が異なり正規化パターンが完全一致しないので同義ではない。一方、「いつ会議ですか」という文と「会議は何時」という文とは正規化パターンが完全一致するので同義である。なお、上記の通り、意味ラベル列はソートされており、正規化パターン同志の比較は意味ラベルについては集合間の比較に相当する。以上の手順で示された複数の文の間の同義判定を利用し、例えばユーザによる文入力に対して頑健に応答を返す対話システム等の応用が可能である。以上が、文正規化システム10の機能構成である。   If the normalization patterns obtained from a plurality of sentences are the same, they can be regarded as synonymous. For example, the sentence “I would have eaten my ice” and the sentence “I want to eat my ice” in FIG. 5 are not synonymous because the semantic label columns are different and the normalization patterns do not completely match. On the other hand, the sentence “when is the meeting” and the sentence “when is the meeting” are synonymous because the normalization patterns completely match. As described above, the meaning label strings are sorted, and the comparison between the normalization patterns is equivalent to the comparison between sets for the meaning labels. The synonym determination between a plurality of sentences shown in the above procedure is used, and for example, an application such as an interactive system that returns a robust response to a sentence input by a user is possible. The functional configuration of the sentence normalization system 10 has been described above.

図6に本実施形態に係る文正規化システム10のハードウェア構成を示す。図6に示すように文正規化システム10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した文正規化システム10の機能が発揮される。以上が、本実施形態に係る文正規化システム10の構成である。   FIG. 6 shows a hardware configuration of the sentence normalization system 10 according to the present embodiment. As shown in FIG. 6, the sentence normalization system 10 includes a central processing unit (CPU) 101, a random access memory (RAM) 102 and a read only memory (ROM) 103 that are main storage devices, a communication module 104 for communication, In addition, the computer includes a computer including hardware such as an auxiliary storage device 105 such as a hard disk. The functions of the sentence normalization system 10 described above are exhibited when these components are operated by a program or the like. The above is the configuration of the sentence normalization system 10 according to the present embodiment.

引き続いて、図7のフローチャートを用いて、本実施形態に係る文正規化システム10の動作方法であり、文正規化システム10で実行される処理である文正規化方法を説明する。本処理では、入力部11によって、正規化対象の文が入力される(S01、入力ステップ)。入力された正規化対象の文は、入力部11から形態素解析部12に出力される。続いて、形態素解析部12によって、入力部11から入力された文に対して形態素解析が行われ、当該文が単語列(形態素列)に分割されると共に分割された各単語の品詞が推定される(S02、形態素解析ステップ)。文から分割された単語列及び推定された各単語の品詞を示す情報が、形態素解析部12から分離部13に出力される。   Subsequently, a sentence normalization method, which is an operation method of the sentence normalization system 10 according to the present embodiment and is a process executed by the sentence normalization system 10, will be described using the flowchart of FIG. 7. In this process, a sentence to be normalized is input by the input unit 11 (S01, input step). The input sentence to be normalized is output from the input unit 11 to the morpheme analysis unit 12. Subsequently, the morpheme analysis unit 12 performs morpheme analysis on the sentence input from the input unit 11, and the sentence is divided into word strings (morpheme strings), and the part of speech of each divided word is estimated. (S02, morphological analysis step). Information indicating the word string divided from the sentence and the estimated part of speech of each word is output from the morphological analysis unit 12 to the separation unit 13.

続いて、分離部13によって、形態素解析部12から入力された単語列が、推定された各単語の品詞に基づいて内容部と文末とに分離される(S03、分離ステップ)。内容部とされた単語列は、分離部13から内容語列抽出部14に出力される。文末とされた単語列は、分離部13から意味ラベル列抽出部15に出力される。   Subsequently, the separation unit 13 separates the word string input from the morphological analysis unit 12 into a content part and a sentence end based on the estimated part of speech of each word (S03, separation step). The word string set as the content part is output from the separating part 13 to the content word string extracting part 14. The word string at the end of the sentence is output from the separation unit 13 to the semantic label string extraction unit 15.

続いて、内容語列抽出部14によって、分離部13から入力された内容部に含まれる自立語が、内容情報である内容語列として抽出される(S04、内容情報抽出ステップ)。この際、内容部に基づいて文が疑問文であるか否かの判定、及び疑問文の種別の判断が合わせて行われてもよい。上記により得られた内容語列、文が疑問文であるか否かの判定結果、及び文が疑問文である場合には疑問文の種別の3つの情報は、内容語列抽出部14から記号列結合部16に出力される。   Subsequently, the independent word included in the content part input from the separation unit 13 is extracted by the content word string extraction unit 14 as a content word string that is content information (S04, content information extraction step). At this time, determination as to whether or not the sentence is a questionable sentence and determination of the type of questionable sentence may be performed based on the content part. The content word string obtained as described above, the determination result as to whether or not the sentence is a question sentence, and, if the sentence is a question sentence, three kinds of information of the question sentence type are symbolized from the contents word string extraction unit 14 It is output to the column coupling unit 16.

一方で、意味ラベル列抽出部15によって、分離部13から入力された文末から、機能情報である意味ラベル列が抽出される(S05、機能情報抽出ステップ)。抽出された意味ラベル列は、意味ラベル列抽出部15から記号列結合部16に出力される。なお、S04及びS05の処理は、独立した処理であるため必ずしも上記の順番に行われる必要はなく、並行してあるいは上記とは逆の順番で行われてもよい。   On the other hand, the meaning label string extraction unit 15 extracts a meaning label string as function information from the sentence end inputted from the separation unit 13 (S05, function information extraction step). The extracted meaning label string is output from the meaning label string extraction unit 15 to the symbol string combination unit 16. Note that the processes of S04 and S05 are independent processes, and thus are not necessarily performed in the above order, and may be performed in parallel or in the reverse order.

続いて、記号列結合部16によって、内容語列抽出部14から入力された内容語列、及び意味ラベル列抽出部15から入力された意味ラベル列が連結されて正規化記号列が生成される(S06、出力ステップ)。続いて、記号列結合部16によって、正規化記号列に基づく正規化パターン(文の正規化された表現)が、例えば、入力文に基づき応答を行うシステムに送信されることにより出力される(S07、出力ステップ)。以上が、本実施形態に係る文正規化システム10で実行される処理である文正規化方法である。   Subsequently, the symbol string combination unit 16 concatenates the content word string input from the content word string extraction unit 14 and the meaning label string input from the meaning label string extraction unit 15 to generate a normalized symbol string. (S06, output step). Subsequently, the symbol string coupling unit 16 outputs a normalized pattern (normalized expression of the sentence) based on the normalized symbol string by being transmitted to a system that makes a response based on the input sentence, for example ( S07, output step). The above is the sentence normalization method that is the process executed by the sentence normalization system 10 according to the present embodiment.

上述したように本実施形態では、文から得られる単語列が内容部と文末とに分離され、それぞれから内容情報である内容語列と機能情報である意味ラベル列とが抽出されて、それらに基づく正規化パターンが文の正規化された表現として出力される。即ち、本実施形態では、口語文にしばしば現れる文法上の崩れの影響を受けやすい構文解析によらず、より基礎的で頑健に動作する単語列から単純で決定論的な操作に基づく正規化が行われる。即ち、構文解析の精度限界に起因する文正規化の誤りを避け、頑健に正規化が行われる。これにより、本発明に係る文正規化システムによれば、例えば、口語的な文等の構文解析では頑健な正規化が困難な文に対しても、頑健に正規化を行うことができる。   As described above, in the present embodiment, a word string obtained from a sentence is separated into a content part and a sentence end, and a content word string that is content information and a meaning label string that is function information are extracted from each of them. The normalization pattern based on is output as a normalized representation of the sentence. In other words, in this embodiment, normalization based on simple and deterministic operations is performed from a more basic and robustly operating word string, without using parsing that is easily affected by grammatical disruptions that often appear in colloquial sentences. Is called. That is, normalization is robustly performed while avoiding sentence normalization errors due to the accuracy limit of parsing. Accordingly, the sentence normalization system according to the present invention can robustly normalize a sentence that is difficult to normalize robustly by syntactic analysis of a colloquial sentence or the like.

また、上述したように内容部と文末との分離は、単語列のうち最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とすることとしてもよい。この構成によれば、適切かつ確実に文を内容部と文末とに分離することができ、その結果適切に正規化を行うことができる。   Further, as described above, the separation of the content part and the sentence end may be performed by using a section from the word string to the rearmost independent word as the content part and the section and the following as the sentence end. According to this configuration, the sentence can be appropriately and reliably separated into the content part and the sentence end, and as a result, normalization can be performed appropriately.

また、本実施形態のように内容語列の単語に基づいて疑問文判定及び疑問文の種別の判断を行うこととしてもよい。この構成によれば、疑問文に対しての正規化を適切に行うことができる。   In addition, as in the present embodiment, question sentence determination and question sentence type determination may be performed based on the words in the content word string. According to this configuration, it is possible to appropriately normalize the question sentence.

また、本実施形態のように内容語列についてはソートせず、意味ラベル列についてはソートして正規化を行うこととしてもよい。内容語列については文意に対する順序の意味が大きく、意味ラベル列については文意に対する順序の意味が小さいと考えられる。従って、この構成によれば、適切な正規化を行うことができる。特に意味ラベル列をソートしているので、意味ラベル列についての順序を無視して文間の比較を可能とする正規化を行うことができる。但し、内容語列及び意味ラベル列のソートについては、必ずしも上記のようにする必要はない。想定される文や正規化が利用されるシステムに応じて、内容語列についてソートしたり、意味ラベル列についてソートしなかったりしてもよい。   Further, the content word string may not be sorted as in the present embodiment, and the semantic label string may be sorted and normalized. It is considered that the meaning of the order with respect to the meaning is large for the content word sequence, and the meaning of the order with respect to the meaning of the meaning label sequence is small. Therefore, according to this configuration, appropriate normalization can be performed. In particular, since the semantic label string is sorted, normalization that enables comparison between sentences can be performed by ignoring the order of the semantic label string. However, it is not always necessary to sort the content word string and the semantic label string as described above. Depending on the assumed sentence and the system in which normalization is used, the content word string may be sorted or the semantic label string may not be sorted.

また、上述したように特定の自立語を付属語とみなして正規化を行うこととしてもよい。これらの構成によれば、正規化において付属語とすべき単語を適切に扱うことができ、その結果適切に正規化を行うことができる。   Further, as described above, normalization may be performed by regarding a specific independent word as an attached word. According to these configurations, it is possible to appropriately handle words that should be attached words in normalization, and as a result, normalization can be performed appropriately.

引き続いて、上述した一連の文正規化システム10による処理をコンピュータに実行させるための文正規化プログラムを説明する。図8に示すように、文正規化プログラム30は、コンピュータに挿入されてアクセスされる、あるいはコンピュータが備える記録媒体20に形成されたプログラム格納領域21内に格納される。   Subsequently, a sentence normalization program for causing a computer to execute the above-described series of sentence normalization systems 10 will be described. As shown in FIG. 8, the sentence normalization program 30 is inserted into a computer and accessed, or stored in a program storage area 21 formed on a recording medium 20 provided in the computer.

文正規化プログラム30は、入力モジュール31と、形態素解析モジュール32と、分離モジュール33と、内容語列抽出モジュール34と、意味ラベル列抽出モジュール35と、記号列結合モジュール36とを備えて構成される。入力モジュール31と、形態素解析モジュール32と、分離モジュール33と、内容語列抽出モジュール34と、意味ラベル列抽出モジュール35と、記号列結合モジュール36とを実行させることにより実現される機能は、上述した文正規化システム10の入力部11と、形態素解析部12と、分離部13と、内容語列抽出部14と、意味ラベル列抽出部15と、記号列結合部16との機能とそれぞれ同様である。   The sentence normalization program 30 includes an input module 31, a morphological analysis module 32, a separation module 33, a content word string extraction module 34, a semantic label string extraction module 35, and a symbol string combination module 36. The The functions realized by executing the input module 31, the morphological analysis module 32, the separation module 33, the content word string extraction module 34, the semantic label string extraction module 35, and the symbol string combination module 36 are described above. The functions of the input unit 11, morphological analysis unit 12, separation unit 13, content word string extraction unit 14, semantic label string extraction unit 15, and symbol string combination unit 16 of the sentence normalization system 10 are similar to each other. It is.

なお、文正規化プログラム30は、その一部又は全部が、通信回線等の伝送媒体を介して伝送され、他の機器により受信されて記録(インストールを含む)される構成としてもよい。また、文正規化プログラム30の各モジュールは、1つのコンピュータでなく、複数のコンピュータのいずれかにインストールされてもよい。その場合、当該複数のコンピュータによるコンピュータシステムよって上述した一連の文正規化プログラム30の処理が行われる。   The sentence normalization program 30 may be partly or wholly transmitted via a transmission medium such as a communication line and received and recorded (including installation) by another device. Each module of the sentence normalization program 30 may be installed in any one of a plurality of computers instead of one computer. In that case, the series of sentence normalization programs 30 described above is performed by the computer system of the plurality of computers.

10…文正規化システム、11…入力部、12…形態素解析部、13…分離部、14…内容語列抽出部、15…意味ラベル列抽出部、16…記号列結合部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置、20…記録媒体、21…プログラム格納領域、30…文正規化プログラム、31…入力モジュール、32…形態素解析モジュール、33…分離モジュール、34…内容語列抽出モジュール、35…意味ラベル列抽出モジュール、36…記号列結合モジュール。   DESCRIPTION OF SYMBOLS 10 ... Sentence normalization system, 11 ... Input part, 12 ... Morphological analysis part, 13 ... Separation part, 14 ... Content word string extraction part, 15 ... Semantic label string extraction part, 16 ... Symbol string coupling | bond part, 101 ... CPU, 102 ... RAM, 103 ... ROM, 104 ... communication module, 105 ... auxiliary storage device, 20 ... recording medium, 21 ... program storage area, 30 ... sentence normalization program, 31 ... input module, 32 ... morpheme analysis module, 33 ... Separation module 34... Content word string extraction module 35... Meaning label string extraction module 36.

Claims (8)

文を入力する入力手段と、
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
を備える文正規化システム。
An input means for inputting a sentence;
A morpheme analyzing unit that divides a sentence input by the input unit into word strings and estimates a part of speech of each divided word;
Separating means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word;
Content information extracting means for extracting content information indicating the content of the sentence from independent words included in the content part separated from the sentence by the separating means;
Functional information extracting means for extracting functional information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means;
Output means for outputting the content information extracted by the content information extraction means and the function information extracted by the function information extraction means as a normalized expression of the sentence;
A sentence normalization system.
前記分離手段は、前記単語列のうち、最も後ろに位置する自立語までの区間を内容部とし、当該区間以降を文末とする請求項1に記載の文正規化システム。   2. The sentence normalization system according to claim 1, wherein the separating unit includes a section from the word string up to the rearmost independent word as a content part and a sentence end after the section. 前記内容情報抽出手段は、内容情報として抽出した単語に疑問詞が含まれるか否か、又は内容情報として抽出した単語のうち末尾の単語が疑問文に対応する名詞であるか否かを判断することで前記文が疑問文であるか否かを判定すると共に、当該疑問詞又は当該末尾の単語に基づき当該疑問文の種別を判断する請求項1又は2に記載の文正規化システム。   The content information extraction means determines whether or not a word extracted as content information includes a question word, or whether or not the last word among the words extracted as content information is a noun corresponding to the question sentence. The sentence normalization system according to claim 1, wherein the sentence normalization system determines whether or not the sentence is a question sentence and determines a type of the question sentence based on the question word or the last word. 前記出力手段は、前記内容情報を前記自立語が前記文に登場した順序に応じたものとし、前記機能情報をソートして出力する請求項1〜3の何れか一項に記載の文正規化システム。   The sentence normalization according to any one of claims 1 to 3, wherein the output means sets the content information according to an order in which the independent words appear in the sentence, and sorts and outputs the function information. system. 前記形態素解析手段によって分割された単語列に含まれる自立語のうち、予め設定された自立語を付属語とみなす請求項1〜4の何れか一項に記載の文正規化システム。   The sentence normalization system as described in any one of Claims 1-4 which considers the preset independent word among the independent words contained in the word string divided | segmented by the said morpheme analysis means as an attached word. 前記予め設定された自立語に対応する対象単語の直前の単語、当該直前の単語の品詞、又は当該直前の単語の活用形に応じて当該対象単語を付属語とみなす請求項5に記載の文正規化システム。   The sentence according to claim 5, wherein the target word is regarded as an adjunct according to the word immediately before the target word corresponding to the preset independent word, the part of speech of the previous word, or the utilization form of the previous word. Normalization system. 文正規化システムの動作方法である文正規化方法であって、
文を入力する入力ステップと、
前記入力ステップにおいて入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析ステップと、
前記形態素解析ステップにおいて分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離ステップと、
前記分離ステップにおいて前記文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出ステップと、
前記分離ステップにおいて前記文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出ステップと、
前記内容情報抽出ステップにおいて抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力ステップと、
を含む文正規化方法。
A sentence normalization method that is an operation method of a sentence normalization system,
An input step for entering a sentence;
Dividing the sentence input in the input step into word strings and estimating the part of speech of each divided word;
A separation step of separating the word string divided in the morphological analysis step into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word;
A content information extraction step for extracting content information indicating the content of the sentence from independent words included in the content part separated from the sentence in the separation step;
A function information extraction step for extracting function information indicating the function expression of the sentence from the sentence end separated from the sentence in the separation step;
An output step of outputting the content information extracted in the content information extraction step and the function information extracted by the function information extraction means as a normalized expression of the sentence;
Normalization method including
コンピュータを、
文を入力する入力手段と、
前記入力手段によって入力された文を単語列に分割すると共に分割した各単語の品詞を推定する形態素解析手段と、
前記形態素解析手段によって分割された単語列を、推定された各単語の品詞に基づいて、当該文の内容を含む内容部と文末とに分離する分離手段と、
前記分離手段によって前記文から分離された内容部に含まれる自立語から、当該文の内容を示す内容情報を抽出する内容情報抽出手段と、
前記分離手段によって前記文から分離された文末から、当該文の機能表現を示す機能情報を抽出する機能情報抽出手段と、
前記内容情報抽出手段によって抽出された内容情報、及び機能情報抽出手段によって抽出された機能情報を前記文の正規化された表現として出力する出力手段と、
として機能させる文正規化プログラム。
Computer
An input means for inputting a sentence;
A morpheme analyzing unit that divides a sentence input by the input unit into word strings and estimates a part of speech of each divided word;
Separating means for separating the word string divided by the morphological analysis means into a content part including the content of the sentence and a sentence end based on the estimated part of speech of each word;
Content information extracting means for extracting content information indicating the content of the sentence from independent words included in the content part separated from the sentence by the separating means;
Functional information extracting means for extracting functional information indicating the functional expression of the sentence from the sentence end separated from the sentence by the separating means;
Output means for outputting the content information extracted by the content information extraction means and the function information extracted by the function information extraction means as a normalized expression of the sentence;
Sentence normalization program to function as.
JP2013197319A 2013-09-24 2013-09-24 Sentence normalization system, sentence normalization method, and sentence normalization program Active JP6145011B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013197319A JP6145011B2 (en) 2013-09-24 2013-09-24 Sentence normalization system, sentence normalization method, and sentence normalization program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013197319A JP6145011B2 (en) 2013-09-24 2013-09-24 Sentence normalization system, sentence normalization method, and sentence normalization program

Publications (2)

Publication Number Publication Date
JP2015064671A true JP2015064671A (en) 2015-04-09
JP6145011B2 JP6145011B2 (en) 2017-06-07

Family

ID=52832512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013197319A Active JP6145011B2 (en) 2013-09-24 2013-09-24 Sentence normalization system, sentence normalization method, and sentence normalization program

Country Status (1)

Country Link
JP (1) JP6145011B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522932A (en) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 Information extraction method, device, equipment and storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259143A (en) * 2004-03-09 2005-09-22 Microsoft Corp Compression of log of language data
JP2011164678A (en) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Functional expression complementing apparatus, method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259143A (en) * 2004-03-09 2005-09-22 Microsoft Corp Compression of log of language data
JP2011164678A (en) * 2010-02-04 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> Functional expression complementing apparatus, method and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522932A (en) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 Information extraction method, device, equipment and storage medium
CN111522932B (en) * 2020-04-23 2023-05-16 北京百度网讯科技有限公司 Information extraction method, device, equipment and storage medium

Also Published As

Publication number Publication date
JP6145011B2 (en) 2017-06-07

Similar Documents

Publication Publication Date Title
JP3906356B2 (en) Syntax analysis method and apparatus
US9697477B2 (en) Non-factoid question-answering system and computer program
JP6909832B2 (en) Methods, devices, equipment and media for recognizing important words in audio
KR20220027198A (en) Pinning of Artifacts for Expansion of Search Keys and Search Spaces in a Natural Language Understanding (NLU) Framework
US10460028B1 (en) Syntactic graph traversal for recognition of inferred clauses within natural language inputs
JP2000353161A (en) Method and device for controlling style in generation of natural language
TWI536183B (en) System and method for eliminating language ambiguity
Graliński et al. PSI-toolkit: A natural language processing pipeline
US10740570B2 (en) Contextual analogy representation
WO2012079257A1 (en) Method and device for machine translation
KR20120053207A (en) Method for recognizing relation based on pas(predicate-argument structure) and apparatus thereof
KR20090061844A (en) System and method for extracting semantic metadata based on ontology
Reshadat et al. A new open information extraction system using sentence difficulty estimation
Alosaimy et al. Tagging classical Arabic text using available morphological analysers and part of speech taggers
Dalai et al. Part-of-speech tagging of Odia language using statistical and deep learning based approaches
US20210064820A1 (en) Machine learning lexical discovery
KR20060043583A (en) Compression of logs of language data
Chennoufi et al. Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization
Nair et al. Sanskrit stemmer design: A literature perspective
JP6145011B2 (en) Sentence normalization system, sentence normalization method, and sentence normalization program
US20210073466A1 (en) Semantic vector rule discovery
US10325025B2 (en) Contextual analogy representation
Labidi New combined method to improve Arabic POS tagging
Ondáš et al. Extracting sentence elements for the natural language understanding based on slovak national corpus
Dissanayake et al. Enhancing conversational ai model performance and explainability for sinhala-english bilingual speakers

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170512

R150 Certificate of patent or registration of utility model

Ref document number: 6145011

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250