JP2013257756A - Analyzing method of character information, information analyzing device and program - Google Patents

Analyzing method of character information, information analyzing device and program Download PDF

Info

Publication number
JP2013257756A
JP2013257756A JP2012133729A JP2012133729A JP2013257756A JP 2013257756 A JP2013257756 A JP 2013257756A JP 2012133729 A JP2012133729 A JP 2012133729A JP 2012133729 A JP2012133729 A JP 2012133729A JP 2013257756 A JP2013257756 A JP 2013257756A
Authority
JP
Japan
Prior art keywords
concept
dictionary
word
meaning
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012133729A
Other languages
Japanese (ja)
Other versions
JP5941345B2 (en
Inventor
Hisashi Takatori
壽 高取
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012133729A priority Critical patent/JP5941345B2/en
Publication of JP2013257756A publication Critical patent/JP2013257756A/en
Application granted granted Critical
Publication of JP5941345B2 publication Critical patent/JP5941345B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a system achieving highly accurate morphological analysis which reduces manual maintenance work of a morphological analysis dictionary by paying attention to a meaning which a word (vocabulary) has.SOLUTION: An information analyzing device includes: a first means for reading dictionary data which comprises a word dictionary in which a word used in a natural language and its characteristic are associated with each other and registered, and a concept dictionary in which a semantic tag showing the meaning of a word and a semantic concept showing a concept of the semantic tag are associated with each other for each meaning of the word and registered; a second means for estimating the characteristic of the semantic concept, on the basis of the dictionary data, by a characteristic collection of the words included in the semantic concept of the text data; a third means for reading the concept dictionary and estimating a characteristic content of the word by associating it with the characteristic content of the semantic concept acquired by the second means; and a fourth means for, on the basis of the dictionary data acquired by the first means and the characteristic of the word acquired by the third means, analyzing into an appropriate form for executing information analysis and constructing an analysis dictionary.

Description

本発明は、コンピュータを用いた情報分析方法および情報分析装置並びにプログラムに係り、特に、Web、企業内、あるいは、ローカルに存在するコンテンツなど電子化文書に内包される自然言語からなるテキストデータを対象とした、テキストデータの単語構成を分析する情報分析方法および装置並びにそれに用いるプログラムに関するものである。   The present invention relates to an information analysis method, an information analysis apparatus, and a program using a computer. In particular, the present invention is directed to text data composed of a natural language included in an electronic document such as content existing in the Web, a company, or locally. The present invention relates to an information analysis method and apparatus for analyzing the word composition of text data and a program used therefor.

近年、インターネットの発達や計算機の普及などに伴い、自然言語によって記載された電子化文書が大量に流通するようになっており、今後も加速度的に増大するものと予想される。
このような状況において、これらの電子化文書を計算機上で分析し、情報検索や自動分類、自動要約など電子化文書を利活用するための仕掛けに対する需要が高まっている。
In recent years, with the development of the Internet and the spread of computers, electronic documents written in natural language have been distributed in large quantities, and it is expected that they will increase at an accelerated rate in the future.
Under such circumstances, there is an increasing demand for a device for analyzing these digitized documents on a computer and utilizing the digitized documents such as information retrieval, automatic classification, and automatic summarization.

こういった電子化文書に対する利活用の仕組みを現実的な性能で実現するためには、電子化文書内に存在するテキストデータを何らかの形で文字列に分解する必要がある。特に、日本語や中国語、韓国語などでは単語の区切り文字(英語におけるスペースなど)が存在しないため、文字列分解方法について検討する必要がある。   In order to realize such a utilization mechanism for digitized documents with realistic performance, it is necessary to decompose text data existing in the digitized document into character strings in some form. In particular, there is no word delimiter (such as a space in English) in Japanese, Chinese, Korean, etc., so it is necessary to consider a character string decomposition method.

一般的には、文字列分解を実現する技術として、形態素解析技術(例えば、特許文献1、および非特許文献1、2、5、6)もしくはN−gram技術(例えば、特許文献2および非特許文献3、4)を用いることが多い。なお、N−gram技術は、統計的に連続した文字列の出現傾向を元に特定の文字列に分解する手法であるため、形態素解析技術において必須となる辞書が必要ないという利点があるが、結果として得られた分割文字列が言語的に意味のある塊になっているという保証はない。そのため、単語の意味などを踏まえた文字列分割を行ないたい場合は、形態素解析技術を用いることが主流となっている。
形態素解析技術を用いることによる文字列分割(以下、分かち書きと呼ぶ)後の各文字列は、形態素と呼ばれる言語的に意味のある塊となっており、さらに、各形態素における詳細な特性情報(品詞、名詞、動詞など)を利用することが可能になるため、より詳細なデータによる様々な再利用が可能になるという利点がある。ただし、形態素解析技術を実現したプログラム(以下、形態素解析エンジンと呼ぶ)では、一般的に、形態素解析を実行するための本体となるプログラムの他に、形態素解析を実行するための辞書、具体的には、その言語に対応した単語情報を定義した単語辞書と、その言語における語彙の連接関係に関する情報を格納した連接辞書などが必要となっている。すなわち、形態素解析を実行するためには、その言語に対応した言語知識を格納した複数の形態素解析用の辞書(以下、形態素解析辞書と呼ぶ)が別途必要となる。
このことから、形態素解析エンジンには、その形態素解析エンジンに対応した自然言語毎の形態素解析辞書を別途提供している形態が多い。この形態素解析辞書を用いることにより、95〜98%程度の形態素解析精度を得ることができるとされている。
Generally, as a technique for realizing character string decomposition, a morphological analysis technique (for example, Patent Document 1, and Non-Patent Documents 1, 2, 5, and 6) or an N-gram technique (for example, Patent Document 2 and Non-Patent Document). Documents 3 and 4) are often used. Note that the N-gram technique is a technique of decomposing into a specific character string based on the appearance tendency of a statistically continuous character string, so there is an advantage that a dictionary essential in the morphological analysis technique is not necessary. There is no guarantee that the resulting split string is a linguistically meaningful chunk. For this reason, when character string division based on the meaning of a word or the like is desired, it is mainstream to use a morphological analysis technique.
Each character string after character string division (hereinafter referred to as segmentation) using morphological analysis technology is a linguistically meaningful chunk called a morpheme, and further detailed characteristic information (part of speech) in each morpheme , Nouns, verbs, etc.) can be used, which has the advantage of being able to be reused in more detailed data. However, a program that implements morphological analysis technology (hereinafter referred to as a morphological analysis engine) generally includes a dictionary for executing morphological analysis, in addition to a program serving as a main body for executing morphological analysis. Requires a word dictionary that defines word information corresponding to the language, a connection dictionary that stores information related to vocabulary connection relationships in the language, and the like. That is, in order to perform morphological analysis, a plurality of morphological analysis dictionaries (hereinafter referred to as morphological analysis dictionaries) that store language knowledge corresponding to the language are separately required.
For this reason, many forms of morpheme analysis engines separately provide a morpheme analysis dictionary for each natural language corresponding to the morpheme analysis engine. By using this morphological analysis dictionary, it is said that morphological analysis accuracy of about 95 to 98% can be obtained.

特開平8−335222号公報.JP-A-8-335222. 特開平11−338883号公報.JP-A-11-338883. 特開2009−181408号公報.JP2009-181408A.

長尾真、「計算機による日本語文章の解析に関する研究」、 昭和53年度文部省科学研究費特定研究(1)研究報告書.Mao Nagao, “Research on the analysis of Japanese texts by computer”, Ministry of Education Scientific Research Fund Specific Research (1) Research Report, 1983. 安田明夫、「形態素解析と分かち書き処理」、 http://wordminer.comquest.co.jp/wmtips/pdf/H15_01-4.pdf.Akio Yasuda, “Morphological analysis and handwriting”, http://wordminer.comquest.co.jp/wmtips/pdf/H15_01-4.pdf. 徳永健伸:「情報検索と言語処理」、東京大学出版会、1999.Takenobu Tokunaga: “Information Retrieval and Language Processing”, University of Tokyo Press, 1999. 北研二:「確率的言語モデル」、東京大学出版会、1999.Kenji Kita: “Probabilistic Language Model”, University of Tokyo Press, 1999. 奥村学:「自然言語処理の基礎」、コロナ社、2010.Manabu Okumura: “Basics of Natural Language Processing”, Corona, 2010. 工藤拓:「Conditional Random Fieldsを用いた日本語形 態素解析」、情報処理学会、2004-NL-161、2004.Taku Kudo: “Japanese morphological analysis using Conditional Random Fields”, IPSJ, 2004-NL-161, 2004. 柳原正,池田一史,松本和則,滝嶋康弘: 「情報量基準に基づく形態素解析用辞書の自動獲得方式」、 FIT2009、第8回情報科学技術フォーラム、E-027、2009.Tadashi Yanagihara, Kazufumi Ikeda, Kazunori Matsumoto, Yasuhiro Takishima: “Automatic Acquisition Method for Morphological Analysis Dictionaries Based on Information Criterion”, FIT2009, 8th Information Science and Technology Forum, E-027, 2009. Pronceton WordNet:http://wordnet.princeton.edu/.Pronceton WordNet: http://wordnet.princeton.edu/. 日本語WordNet:http://nlpwww.nict.go.jp/wn-ja/.Japanese WordNet: http://nlpwww.nict.go.jp/wn-ja/. 日本電子化辞書研究所:EDR電子化 辞書利用マニュアル、1995.Japan Electronic Dictionary Institute: EDR Electronic Dictionary Usage Manual, 1995.

しかし、現状用いられている形態素解析辞書は過去の新聞記事データを元に構築されたものである。したがって、新聞のような文体の一般的なテキストデータを解析する場合には適しているが、過去の新聞記事データから構築されたものであることから、新語、造語、顔文字、あるいは、専門用語といった語彙については未対応とならざるを得ない。それゆえ、新語、造語、顔文字、あるいは、専門用語といった語彙を含むテキストデータを形態素解析すると解析精度が低下するという問題がある。   However, the currently used morphological analysis dictionary is constructed based on past newspaper article data. Therefore, it is suitable for analyzing general text data such as newspapers, but it is constructed from past newspaper article data, so new words, coined words, emoticons, or technical terms Such a vocabulary must be unsupported. Therefore, there is a problem that the analysis accuracy decreases when morphological analysis is performed on text data including words such as new words, coined words, emoticons, or technical terms.

例えば、「WSDL」や「部門名」などといった、ある特定の業界内あるいは企業内でのみ使われる独自の用語があるが、そのような用語について全て定義することはそもそも困難である。
また、もしその分野における用語を全て定義したとしても、その形態素解析辞書を別の業界や企業に適用すれば、その業界や企業では使われていない用語であるため、解析精度がかえって低下することになる。このことから、専門用語などについては、状況に応じて辞書を複数用意し、容易に辞書を切り替えられるような仕組みが求められる。
For example, there are unique terms used only within a specific industry or company, such as “WSDL” and “department name”, but it is difficult to define all such terms in the first place.
Moreover, even if all terms in the field are defined, if the morphological analysis dictionary is applied to another industry or company, it is a term that is not used in that industry or company, so the analysis accuracy will be lowered. become. For this reason, for technical terms and the like, a mechanism is required in which a plurality of dictionaries are prepared according to the situation and the dictionaries can be easily switched.

また、言葉というのは、例えば、「スマートフォン」や「ガラケー」など、以前は存在しなかった新しい語彙(新語)や造語を時代とともに定義したり、その語彙が示す意味内容が変化したりするものである。これらについても、容易に追加や変更ができるような仕組みが求められる。
上述した問題を解決するためには、状況に応じて形態素解析辞書をメンテナンスすることが必要となる。しかし、現状の形態素解析エンジンでは、このメンテナンスを人手で行なう必要があり、過大な負担となっていることが問題となっている。
In addition, words are words that define new vocabulary (new words) or coined words that have not existed before, such as “smartphones” and “garakae”, and the meanings of the vocabulary change. It is. For these, a mechanism that can be easily added or changed is required.
In order to solve the above problem, it is necessary to maintain the morphological analysis dictionary according to the situation. However, in the current morphological analysis engine, it is necessary to perform this maintenance manually, which is an excessive burden.

この課題について、図面を用いて説明する。
まず,形態素解析辞書には、少なくとも単語自体の情報を格納するための「単語辞書」と単語間の連接情報を格納するための「連接辞書」が存在する。
図3は、形態素解析辞書の一部である単語辞書の一例を示す図である。
This problem will be described with reference to the drawings.
First, the morphological analysis dictionary includes at least a “word dictionary” for storing information of the word itself and a “connection dictionary” for storing connection information between words.
FIG. 3 is a diagram illustrating an example of a word dictionary that is a part of the morphological analysis dictionary.

ここで例示する単語辞書は、自然言語における単語の情報を格納するものであり、図3で示すように「表層形」、「左文脈ID」、「右文脈ID」、「生起コスト」といったデータによって構成されている。
「表層形」というのは、単語が表記される形である。
「左文脈ID」はその単語を左(前)から見たときの内部状態における識別子、
「右文脈ID」はその単語を右(後)から見たときの内部状態における識別子である。
また、「生起コスト」とは、その単語の出現しやすさを示す指標である。この数値が小さいほど出現しやすいという意味となる。
また、上述したデータ項目の他、品詞、基本形、活用形、単語の原形、読み等を付与している辞書も存在する。
The word dictionary exemplified here stores information of words in natural language, and data such as “surface layer”, “left context ID”, “right context ID”, “occurrence cost” as shown in FIG. It is constituted by.
The “surface form” is a form in which words are written.
"Left context ID" is an identifier in the internal state when the word is viewed from the left (front),
“Right context ID” is an identifier in the internal state when the word is viewed from the right (back).
The “occurrence cost” is an index indicating the ease of appearance of the word. The smaller this value, the easier it will appear.
In addition to the data items described above, there are also dictionaries to which parts of speech, basic forms, utilization forms, original forms of words, readings, and the like are assigned.

次に、図4は、形態素解析辞書の一部である連接辞書の一例を示す図である。ここで例示する連接辞書は、自然言語における各単語間の連接コスト(つながりやすさ)を格納するものであり、図4で示すように「右文脈ID」と「左文脈ID」とをペアにした場合における「連接コスト」をマトリックス状に構成するものである。「連接コスト」が小さいほど、その文脈IDを保持する単語間(右文脈IDを保持する単語と左文脈IDを保持する単語)はつながり易いという意味となる。なお、ここで示す「右文脈ID」と「左文脈ID」は、図3と同じものを指す。   Next, FIG. 4 is a diagram illustrating an example of a concatenation dictionary that is a part of the morphological analysis dictionary. The concatenation dictionary exemplified here stores concatenation costs (ease of connection) between words in a natural language, and as shown in FIG. 4, "right context ID" and "left context ID" are paired. In this case, the “joint cost” is configured in a matrix. It means that the smaller the “concatenation cost”, the easier it is to connect between the words holding the context ID (words holding the right context ID and words holding the left context ID). The “right context ID” and the “left context ID” shown here indicate the same as those in FIG.

形態素解析エンジンでは、上記単語辞書と連接辞書を用いて図36に示すようなラティス構造と呼ばれる内部状態を生成し、これを元に分かち書きを実行することになる。なお、ラティス構造の生成方法および形態素解析技術における詳細な処理方式については、公知であるため省略する。   In the morphological analysis engine, an internal state called a lattice structure as shown in FIG. 36 is generated using the word dictionary and the concatenated dictionary, and division is executed based on the internal state. Note that the lattice structure generation method and the detailed processing method in the morphological analysis technique are well-known and will not be described.

図36は、「東京都に住む」という文字列をラティス構造にした場合の例を示す図である。ここで、例えば、この図における「東京」という言葉の下に記載している数値が「生起コスト」と呼ばれるものであり、この場合は「15」という値になっている。また、例えば、「東京」と「都」の間に存在する数値が「連接コスト」と呼ばれるものであり、ここでは「10」という値となっている。形態素解析技術では、ラティス構造中のパス上に存在する「生起コスト」と「連接コスト」を加算していき、その総和が最も低い値を持つパス(この場合、「東京/都/に/住む」)が最もふさわしい分割であると判断し、分かち書き実行結果として提示することになる。   FIG. 36 is a diagram illustrating an example in which the character string “living in Tokyo” has a lattice structure. Here, for example, the numerical value described under the word “Tokyo” in this figure is called “occurrence cost”, and in this case, the value is “15”. Further, for example, a numerical value existing between “Tokyo” and “Tokyo” is called “joint cost”, and is “10” here. In the morphological analysis technology, the “occurrence cost” and the “joint cost” existing on the path in the lattice structure are added, and the path having the lowest sum (in this case, “Tokyo / city / in / living” ")" Is determined to be the most suitable division, and is presented as a result of the split writing execution.

この仕組み上、辞書内部に設定されている「生起コスト」、「連接コスト」に相当する数値の精度が低ければ、形態素解析精度の低下に直結するということになる。すなわち、辞書に存在しない単語を新たに登録したい場合には、その単語に対応する「生起コスト」、「連接コスト」の妥当な数値を算出した上で、該当単語を形態素解析用辞書に登録するという作業が必須となる。ただし、新規に登録する単語であるため、必要な数値を設定するための指標となる値がそもそも存在しないことが問題である。そのため、実際には、辞書メンテナンス作業者が試行錯誤を行ないながら妥当と考えられる数値を経験的に算出し、単語登録を行なうという形態になっていることが多い。   On the basis of this mechanism, if the accuracy of numerical values corresponding to “occurrence cost” and “joint cost” set in the dictionary is low, this will directly lead to a decrease in morphological analysis accuracy. In other words, when it is desired to newly register a word that does not exist in the dictionary, after calculating appropriate numerical values of “occurrence cost” and “joint cost” corresponding to the word, the corresponding word is registered in the morphological analysis dictionary. This work is essential. However, since this is a newly registered word, there is a problem that there is no value that serves as an index for setting a necessary numerical value. For this reason, in practice, dictionary maintenance workers often use empirically calculated values that are considered reasonable while performing trial and error, and register words.

従来における形態素解析辞書のメンテナンス作業では、上述したような問題を人手によって試行錯誤で解決しているため、過大な負担となっていた。言い換えれば、そもそも形態素解析辞書のメンテナンスにおける作業コストが相当高いため、形態素解析辞書に単語を容易に追加したり、用途に応じて形態素解析辞書を切り替えたりするような仕組みが存在しなかった。   In the conventional maintenance work of the morphological analysis dictionary, since the above-described problems are solved manually by trial and error, it has been an excessive burden. In other words, since the work cost for maintenance of the morphological analysis dictionary is quite high in the first place, there is no mechanism for easily adding words to the morphological analysis dictionary or switching the morphological analysis dictionary according to the usage.

この作業コストを低減するための方式としては、例えば、前述の非特許文献7にて提示されている方法がある。この方法は、未知語として検出された語彙に対して、情報量基準に基づくモデル検定によって未知語内の単語境界およびその品詞を推定する手法である。しかし、この手法はあくまでも未知語内の単語境界を統計的に推定する手法、つまり、未知語内に単語区切り位置が存在するか否かを推定する手法であるため、そもそも、本来分割してはいけない語彙を形態素解析エンジンによって分割してしまった場合に対応することができないという問題がある。   As a method for reducing the work cost, for example, there is a method presented in Non-Patent Document 7 described above. This method is a method for estimating a word boundary and its part of speech in an unknown word by a model test based on an information criterion for a vocabulary detected as an unknown word. However, this method is only a method for statistically estimating word boundaries in unknown words, that is, a method for estimating whether word break positions exist in unknown words. There is a problem that it is impossible to deal with a case where a vocabulary that should not be divided by a morphological analysis engine.

例えば、形態素解析辞書に「日立ソリューションズ」という単語が登録されていない状態で「日立ソリューションズ」を含むテキストデータに対して形態素解析を実行した場合を考える。その場合、形態素解析エンジンによる解析結果として、「日立」、「ソリューションズ」等の単語を抽出することになる。しかし、「日立ソリューションズ」は社名であり、本来は、一語として抽出すべきものである。非特許文献7の方式では、例えば、「ソリューションズ」の内部に単語区切り位置が存在するか否かを推定することは可能であるが、そもそも形態素解析エンジンによって、「日立」と「ソリューションズ」で分割されてしまっているため、この手法で対応することは困難である。   For example, consider a case where morphological analysis is performed on text data including “Hitachi Solutions” in a state where the word “Hitachi Solutions” is not registered in the morphological analysis dictionary. In this case, words such as “Hitachi” and “Solutions” are extracted as an analysis result by the morphological analysis engine. However, "Hitachi Solutions" is a company name and should be extracted as a single word. In the method of Non-Patent Document 7, for example, it is possible to estimate whether or not there is a word break position in “Solutions”, but in the first place, it is divided into “Hitachi” and “Solutions” by the morphological analysis engine. It is difficult to cope with this method.

そこで、本発明は、言葉(語彙)が持つ意味に着目することにより、形態素解析辞書の人手によるメンテナンス作業を低減しながら、高精度な形態素解析を実現する方法及びシステム並びにプログラムを提供することを目的とする。   Therefore, the present invention provides a method, system, and program for realizing high-precision morphological analysis while reducing manual maintenance work of the morphological analysis dictionary by focusing on the meaning of words (vocabulary). Objective.

上記課題を解消するために、本発明に係る情報分析方法は、言葉(語彙)が持つ意味に着目し、単語自体の「生起コスト」と「連接コスト」が存在しない場合でも、言葉(語彙)が持つ意味から上記コストを同定する手段を備えることを特徴とする。
本発明は、日本語に限らず、言語の特性として、同じ種別(概念)に属するものを直接入れ替えても文章として成立することが多いことから着想を得ている。例えば、「私は、日立のテレビを買いました。」という文章の場合、「日立」を「東芝」や「GE」などに置き換えても文章として成立する。また、「テレビ」を「パソコン」、「携帯電話」、あるいは、「スマートフォン」などに入れ替えても文章は成立する。ここで、「日立」「東芝」「GE」といった単語については、例えば「企業名」という概念で集約することができる。また、「テレビ」、「パソコン」、「携帯電話」、あるいは、「スマートフォン」という単語については、例えば「商品」という概念で集約することができる。こういったことは、特に名詞と類される単語に有効であると考えられる。業界内あるいは企業内で独自に用いられる単語など新規に登録したい単語のほとんどは名詞に属するものであるため、この概念による集約という考え方は特に有効であると考えられる。
In order to solve the above problems, the information analysis method according to the present invention focuses on the meaning of words (vocabulary), and even if the words “occurrence cost” and “joint cost” do not exist, the words (vocabulary) Means for identifying the cost from the meaning of.
The present invention is not limited to Japanese, and is inspired by the fact that, as a characteristic of a language, text belonging to the same type (concept) is often established as a sentence even if it is directly replaced. For example, in the case of the sentence “I bought Hitachi's TV”, the sentence is established even if “Hitachi” is replaced with “Toshiba” or “GE”. Even if “TV” is replaced with “PC”, “mobile phone”, “smartphone” or the like, the sentence can be established. Here, words such as “Hitachi”, “Toshiba”, and “GE” can be collected by the concept of “company name”, for example. In addition, the words “TV”, “PC”, “mobile phone”, or “smart phone” can be aggregated under the concept of “product”, for example. This is especially true for words that are similar to nouns. Since most new words to be registered, such as words used uniquely in the industry or in the company, belong to nouns, the concept of aggregation based on this concept is considered particularly effective.

具体的には、前処理として、概念の定義を行なうための「概念定義辞書」および概念と単語を結び付けるための「概念辞書」、そして、概念間の関係性を定義する「概念関係定義辞書」を用意する。これら概念に関する各種辞書と市場に存在する汎用的な形態素解析辞書を用いて、この概念における生起コストおよび連接コストを算出し、それぞれ概念生起コスト辞書と概念連接コスト辞書として生成する。次に、生起コストおよび連接コストが設定されていない単語に対して、概念生起コスト辞書および概念連接コスト辞書を用いることにより生起コストおよび連接コストを同定する。この同定結果を元に、形態素解析用辞書を再構築する。
その後、本処理として形態素解析を実行する際には、前処理として再構築済の形態素解析辞書を用いて行なう。
これにより、事前に単語の生起コストおよび連接コストが設定されていない場合でも、その単語が属する概念から該当単語の生起コストおよび連接コストが自動的に設定されることになり、高精度な解析精度を実現することが可能となる。
Specifically, as preprocessing, a “concept definition dictionary” for defining concepts, a “concept dictionary” for linking concepts and words, and a “concept relationship definition dictionary” for defining relationships between concepts Prepare. Using various dictionaries related to these concepts and a general-purpose morphological analysis dictionary existing in the market, the occurrence cost and the concatenation cost in this concept are calculated, and generated as a concept occurrence cost dictionary and a concept concatenation cost dictionary, respectively. Next, the occurrence cost and the concatenation cost are identified by using the concept occurrence cost dictionary and the concept concatenation cost dictionary for the words for which the occurrence cost and the concatenation cost are not set. Based on this identification result, a morphological analysis dictionary is reconstructed.
Thereafter, when morphological analysis is executed as the main process, the pre-processed morphological analysis dictionary is used.
As a result, even if the word occurrence cost and the concatenation cost are not set in advance, the word occurrence cost and the concatenation cost are automatically set from the concept to which the word belongs. Can be realized.

具体的には、本発明に係る情報分析装置は、自然言語からなるテキストデータを分析する装置であって、
自然言語に用いられる単語とその特性を対応付けて登録した単語辞書と単語の意味を示す意味タグとその意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書とから成る辞書データを読み込む外部定義辞書取得手段と、
前記外部定義辞書取得手段によって取得した辞書データを元に、前記テキストデータの意味概念に内包される単語の特性集合により意味概念の特性を推定する概念特性推定手段と、
ユーザが追加で作成した単語の意味を示す意味タグと前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書を読み込み、前記概念特性推定手段によって得られた意味概念の特性内容と対応付けることにより、単語の特性内容を推定する単語特性推定手段と、
前記外部定義辞書取得手段によって得られる辞書データと前記単語特性推定手段によって得られる単語の特性を元に、情報分析を実行するために適切な形式に解析し、分析辞書を構築する分析辞書構築手段と、
ユーザが入力した自然言語からなるテキスト情報を入力文として受け付ける文字情報受付手段と、
前記分析辞書構築手段により生成した分析辞書を用いて前記文字情報受付手段によって得られた入力文に内包される単語を同定して抽出する単語抽出手段と、
前記単語抽出手段によって得られた抽出結果をユーザの指示に基づき、選択して出力する分析結果出力手段と
を有することを特徴とする。
Specifically, the information analysis apparatus according to the present invention is an apparatus for analyzing text data composed of a natural language,
A word dictionary registered in association with a word used in a natural language and its characteristics, a concept dictionary in which a meaning tag indicating the meaning of the word and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word An externally defined dictionary acquisition means for reading dictionary data consisting of:
Based on the dictionary data acquired by the external definition dictionary acquisition means, concept characteristic estimation means for estimating the characteristics of the semantic concept by a characteristic set of words included in the semantic concept of the text data,
A concept dictionary in which a semantic tag indicating the meaning of a word additionally created by a user and a semantic concept indicating the concept of the semantic tag are registered in association with each meaning of the word is read and obtained by the concept characteristic estimation means Word characteristic estimation means for estimating the characteristic content of a word by associating it with the characteristic content of a semantic concept;
Analysis dictionary construction means for constructing an analysis dictionary by analyzing in an appropriate format for performing information analysis based on dictionary data obtained by the external definition dictionary acquisition means and word characteristics obtained by the word characteristic estimation means When,
Character information accepting means for accepting text information composed of a natural language input by the user as an input sentence;
A word extraction unit that identifies and extracts a word included in the input sentence obtained by the character information reception unit using the analysis dictionary generated by the analysis dictionary construction unit;
And an analysis result output means for selecting and outputting the extraction result obtained by the word extraction means based on a user instruction.

また、前記外部定義辞書取得手段が、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて、前記意味概念間の関係性を定義した概念関係辞書を読み込む手段をさらに有し、前記概念特性推定手段が、意味概念間の上下関係などの関係性を考慮して概念特性を修正する概念特性修正手段ををさらに有することを特徴とする。   In addition, the external definition dictionary acquisition means, as an external definition dictionary, a word dictionary registered in association with a word used in natural language and its characteristics, a meaning tag indicating the meaning of the word, and a meaning indicating the concept of the meaning tag In addition to a concept dictionary registered in association with each word meaning, the concept further includes means for reading a concept relation dictionary that defines the relationship between the semantic concepts, and the concept characteristic estimation means includes the semantic concept It further has a conceptual characteristic correcting means for correcting the conceptual characteristic in consideration of the relationship such as the vertical relationship between them.

また、前記分析結果出力手段が出力した結果が、十分に分析できなかったとシステムが判断した項目を記憶装置に保持する改善候補保持手段と、
前記各辞書をメンテナンスするユーザの指示に従い、改善候補データを提示する改善候補データ提示手段とをさらに備えることを特徴とする。
Moreover, the improvement candidate holding means for holding in the storage device the items determined by the system that the result output by the analysis result output means could not be analyzed sufficiently,
It further comprises improvement candidate data presenting means for presenting improvement candidate data in accordance with an instruction of a user who maintains each dictionary.

本発明に係る分析方法は、自然言語からなるテキストデータを計算機によって分析する方法であって、
前記計算機が、
自然言語に用いられる単語とその特性を対応付けて登録した単語辞書と単語の意味を示す意味タグとその意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書とから成る辞書データを読み込む第1のステップと、
前記第1のステップにおいて読み込んだ辞書データを元に、前記テキストデータの意味概念に内包される単語の特性集合により意味概念の特性を推定する第2のステップと、
ユーザが追加で作成した単語の意味を示す意味タグと前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書を読み込み、前記第2のステップで得られた意味概念の特性内容と対応付けることにより、単語の特性内容を推定する第3のステップと、
前記第1のステップにおいて読み込んだ辞書データと前記第2のステップにおいて得られた単語の特性を元に、情報分析を実行するために適切な形式に解析し、分析辞書を構築する第3のステップと、
ユーザが入力した自然言語からなるテキスト情報を入力文として受け付ける第4のステップと、
前記第3のステップにおいて構築した分析辞書を用いて前記第4のステップにおいて受け付けた入力文に内包される単語を同定して抽出する第5のステップと、
前記第5のステップにおいて抽出した抽出結果をユーザの指示に基づき、選択して出力する第6のステップと
を備えることを特徴とする。
The analysis method according to the present invention is a method of analyzing text data consisting of natural language by a computer,
The calculator is
A word dictionary registered in association with a word used in a natural language and its characteristics, a concept dictionary in which a meaning tag indicating the meaning of the word and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word A first step of reading dictionary data comprising:
A second step of estimating the characteristics of the semantic concept based on the characteristic set of words included in the semantic concept of the text data based on the dictionary data read in the first step;
A concept dictionary in which a meaning tag indicating the meaning of an additional word created by a user and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word is read and obtained in the second step A third step of estimating the characteristic content of the word by associating with the characteristic content of the semantic concept;
A third step of constructing an analysis dictionary by analyzing in an appropriate format for performing information analysis based on the dictionary data read in the first step and the characteristics of the words obtained in the second step When,
A fourth step of accepting text information consisting of a natural language input by the user as an input sentence;
A fifth step of identifying and extracting words contained in the input sentence received in the fourth step using the analysis dictionary constructed in the third step;
And a sixth step of selecting and outputting the extraction result extracted in the fifth step based on a user instruction.

また、前記第1のステップが、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて、前記意味概念間の関係性を定義した概念関係辞書を読み込むステップをさらに有し、前記第2のステップが、意味概念間の上下関係などの関係性を考慮して概念特性を修正するステップをさらに有することを特徴とする。   The first step includes a word dictionary registered in association with a word used in a natural language and its characteristics as an external definition dictionary, a semantic tag indicating the meaning of the word, and a semantic concept indicating the concept of the semantic tag. In addition to a concept dictionary registered in association with each meaning of the word, and a step of reading a concept relation dictionary defining the relationship between the semantic concepts, and the second step includes The method further includes a step of correcting the concept characteristic in consideration of the relationship such as the upper and lower relationship.

また、前記第6のステップにおいて出力した結果が、十分に分析できなかったとシステムが判断した項目を改善候補として記憶装置に保持するステップと、
前記各辞書をメンテナンスするユーザの指示に従い、前記改善補のデータを提示するステップをさらに備えることを特徴とする。
A step of holding the item determined by the system as a result of the output in the sixth step as a candidate for improvement in the storage device;
The method further includes the step of presenting the data for improvement according to an instruction of a user who maintains each dictionary.

さらに、前記第1のステップにおいて、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて前記意味概念間の関係性を定義した概念関係辞書を読み込み、前記メモリに格納するステップと、
意味概念間の上下関係などの関係性を考慮して概念特性を修正するステップとをさらに含むことを特徴とする。
Furthermore, in the first step, as an external definition dictionary, a word dictionary registered in association with a word used in a natural language and its characteristics, a semantic tag indicating the meaning of the word, and a semantic concept indicating the concept of the semantic tag In addition to the concept dictionary registered in association with each word meaning, and reading the concept relationship dictionary defining the relationship between the semantic concepts, and storing in the memory,
And a step of modifying concept characteristics in consideration of a relationship such as a vertical relationship between semantic concepts.

また、本発明に係るプログラムは、自然言語からなるテキストデータを計算機によって分析するためのプログラムであって、
前記計算機を、
自然言語に用いられる単語とその特性を対応付けて登録した単語辞書と単語の意味を示す意味タグとその意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書とから成る辞書データを読み込む外部定義辞書取得手段と、
前記外部定義辞書取得手段によって取得した辞書データを元に、前記テキストデータの意味概念に内包される単語の特性集合により意味概念の特性を推定する概念特性推定手段と、
ユーザが追加で作成した単語の意味を示す意味タグと前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書を読み込み、前記概念特性推定手段によって得られた意味概念の特性内容と対応付けることにより、単語の特性内容を推定する単語特性推定手段と、
前記外部定義辞書取得手段によって得られる辞書データと前記単語特性推定手段によって得られる単語の特性を元に、情報分析を実行するために適切な形式に解析し、分析辞書を構築する分析辞書構築手段と、
ユーザが入力した自然言語からなるテキスト情報を入力文として受け付ける文字情報受付手段と、
前記分析辞書構築手段により構築した分析辞書を用いて前記文字情報受付手段によって得られた入力文に内包される単語を同定して抽出する単語抽出手段と、
前記単語抽出手段によって得られた抽出結果をユーザの指示に基づき、選択して出力する分析結果出力手段として機能させることを特徴とする。
The program according to the present invention is a program for analyzing text data composed of natural language by a computer,
The calculator
A word dictionary registered in association with a word used in a natural language and its characteristics, a concept dictionary in which a meaning tag indicating the meaning of the word and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word An externally defined dictionary acquisition means for reading dictionary data consisting of:
Based on the dictionary data acquired by the external definition dictionary acquisition means, concept characteristic estimation means for estimating the characteristics of the semantic concept by a characteristic set of words included in the semantic concept of the text data,
A concept dictionary in which a semantic tag indicating the meaning of a word additionally created by a user and a semantic concept indicating the concept of the semantic tag are registered in association with each meaning of the word is read and obtained by the concept characteristic estimation means Word characteristic estimation means for estimating the characteristic content of a word by associating it with the characteristic content of a semantic concept;
Analysis dictionary construction means for constructing an analysis dictionary by analyzing in an appropriate format for performing information analysis based on dictionary data obtained by the external definition dictionary acquisition means and word characteristics obtained by the word characteristic estimation means When,
Character information accepting means for accepting text information composed of a natural language input by the user as an input sentence;
Word extraction means for identifying and extracting words included in the input sentence obtained by the character information reception means using the analysis dictionary constructed by the analysis dictionary construction means;
The extraction result obtained by the word extraction means is selected and output based on a user instruction, and functions as an analysis result output means.

また、前記外部定義辞書取得手段を、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて、前記意味概念間の関係性を定義した概念関係辞書を読み込む手段として機能させ、さらに前記概念特性推定手段を、意味概念間の上下関係などの関係性を考慮して概念特性を修正する概念特性修正手段として機能させることを特徴とする。   Further, the external definition dictionary acquisition means as an external definition dictionary, a word dictionary registered in association with a word used in a natural language and its characteristics, a meaning tag indicating the meaning of the word, and a meaning indicating the concept of the meaning tag In addition to the concept dictionary registered in association with each meaning of the word, the concept functions as a means for reading a concept relation dictionary defining the relationship between the semantic concepts, and the concept characteristic estimation means It is characterized by functioning as a conceptual characteristic correcting means for correcting the conceptual characteristic in consideration of the relationship such as the vertical relationship between them.

また、前記分析結果出力手段が出力した結果が、十分に分析できなかったとシステムが判断した項目を記憶装置に保持する改善候補保持手段として機能させ、   In addition, the result output by the analysis result output unit functions as an improvement candidate holding unit that holds in the storage device the items that the system has determined to have not been sufficiently analyzed,

前記各辞書をメンテナンスするユーザの指示に従い、改善候補データを提示する改善候補データ提示手段として機能させることを特徴とする。   According to an instruction from a user who maintains each dictionary, the dictionary is made to function as improvement candidate data presentation means for presenting improvement candidate data.

本発明によれば、言葉(語彙)が持つ意味概念を考慮する仕組みを提供することにより、辞書メンテナンス作業者が新たな単語を登録する場合には、概念と単語を紐付けるだけでよい。そもそも、人が単語に関わる生起コストや連接コストを算出することは難しいが、その単語がどの概念(意味グループ)に属するかを想像することは相当容易である。
このことから、形態素解析辞書における辞書メンテナンスコストを削減することができるようになる。さらに、新規単語の辞書登録自体が容易になるため、頻繁にメンテナンスを行なうことができるようになり、結果として形態素解析精度の向上につなげることができるなどの効果が得られる。
According to the present invention, when a dictionary maintenance worker registers a new word by providing a mechanism that considers the semantic concept of a word (vocabulary), it is only necessary to associate the concept with the word. In the first place, it is difficult for a person to calculate an occurrence cost and a connection cost related to a word, but it is quite easy to imagine which concept (semantic group) the word belongs to.
Thus, the dictionary maintenance cost in the morphological analysis dictionary can be reduced. Further, since new words can be easily registered in the dictionary itself, frequent maintenance can be performed, and as a result, the morphological analysis accuracy can be improved.

本発明の第1の実施形態における情報分析システムの全体構成を示すブロック図である。1 is a block diagram showing an overall configuration of an information analysis system in a first embodiment of the present invention. 本発明の第1の実施の形態における情報分析辞書構築サブシステム101の構成を示すブロック図である。It is a block diagram which shows the structure of the information analysis dictionary construction subsystem 101 in the 1st Embodiment of this invention. 本発明の第1の実施形態における単語辞書D110の例の説明図である。It is explanatory drawing of the example of the word dictionary D110 in the 1st Embodiment of this invention. 本発明の第1の実施形態における連接辞書D120の例の説明図である。It is explanatory drawing of the example of the connection dictionary D120 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念定義辞書D130の例の説明図である。It is explanatory drawing of the example of the concept definition dictionary D130 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念辞書D140の例の説明図である。It is explanatory drawing of the example of the concept dictionary D140 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念生起コスト辞書D150の例の説明図である。It is explanatory drawing of the example of the concept occurrence cost dictionary D150 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念連結コスト辞書D160の例の説明図である。It is explanatory drawing of the example of the concept connection cost dictionary D160 in the 1st Embodiment of this invention. 本発明の第1の実施形態における情報分析辞書構築制御プログラムP11によって実行される処理のフローチャートである。It is a flowchart of the process performed by the information analysis dictionary construction control program P11 in the first embodiment of the present invention. 本発明の第1の実施形態における概念コスト分析プログラムP111によって実行される処理の概要を示すフローチャートである。It is a flowchart which shows the outline | summary of the process performed by the conceptual cost analysis program P111 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念コスト分析プログラムP111によって実行される内部処理(ステップS10704)のフローチャートである。It is a flowchart of the internal process (step S10704) performed by the conceptual cost analysis program P111 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念生起コストモデルの例の説明図である。It is explanatory drawing of the example of the concept occurrence cost model in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念連接コストモデルの例の説明図である。It is explanatory drawing of the example of the concept connection cost model in the 1st Embodiment of this invention. 本発明の第1の実施形態における未処理単語モデルの例の説明図である。It is explanatory drawing of the example of the unprocessed word model in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念コスト分析プログラムP111によって実行される内部処理(ステップS10707)のフローチャートである。It is a flowchart of the internal process (step S10707) performed by the conceptual cost analysis program P111 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念コスト分析プログラムP111によって実行される内部処理(ステップS107071)のフローチャートである。It is a flowchart of the internal process (step S107071) performed by the conceptual cost analysis program P111 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念コスト分析プログラムP111によって実行される内部処理(ステップS107072)のフローチャートである。It is a flowchart of the internal process (step S107072) performed by the conceptual cost analysis program P111 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念コスト分析プログラムP111によって実行される内部処理(ステップS107073)のフローチャートである。It is a flowchart of the internal process (step S107073) performed by the conceptual cost analysis program P111 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念コスト分析プログラムP111によって実行される内部処理(ステップS107074)のフローチャートである。It is a flowchart of the internal process (step S107074) performed by the conceptual cost analysis program P111 in the 1st Embodiment of this invention. 本発明の第1の実施形態における概念定義辞書および概念辞書のイメージ例の説明図である。It is explanatory drawing of the example of an image of the concept definition dictionary and concept dictionary in the 1st Embodiment of this invention. 本発明の第1の実施形態における単語を新規追加した概念定義辞書および概念辞書のイメージ例の説明図である。It is explanatory drawing of the example of a concept definition dictionary which added the word newly in the 1st Embodiment of this invention, and the image of a concept dictionary. 本発明の第1の実施形態における単語登録画面の例の説明図である。It is explanatory drawing of the example of the word registration screen in the 1st Embodiment of this invention. 本発明の第1の実施の形態における情報分析サーバ102の構成を示すブロック図である。It is a block diagram which shows the structure of the information analysis server 102 in the 1st Embodiment of this invention. 本発明の第1の実施形態における情報分析プログラムP12によって実行される処理のフローチャートである。It is a flowchart of the process performed by the information analysis program P12 in the 1st Embodiment of this invention. 本発明の第1の実施形態における未知語リストD200の例の説明図である。It is explanatory drawing of the example of the unknown word list | wrist D200 in the 1st Embodiment of this invention. 本発明の第1の実施形態における情報分析クライアント103あるいは104の構成を示すブロック図である。It is a block diagram which shows the structure of the information analysis client 103 or 104 in the 1st Embodiment of this invention. 本発明の第1の実施形態における分析クライアント制御プログラムP13によって実行される処理を示すフローチャートである。It is a flowchart which shows the process performed by the analysis client control program P13 in the 1st Embodiment of this invention. 本発明の第2の実施形態における情報分析辞書構築サブシステム101の構成を示すブロック図である。It is a block diagram which shows the structure of the information analysis dictionary construction subsystem 101 in the 2nd Embodiment of this invention. 本発明の第2の実施形態における情報分析辞書構築制御プログラムP11によって実行される処理のフローチャートである。It is a flowchart of the process performed by the information analysis dictionary construction control program P11 in the second embodiment of the present invention. 本発明の第2の実施の形態における概念関係定義辞書D170の例の説明図である。It is explanatory drawing of the example of the conceptual relationship definition dictionary D170 in the 2nd Embodiment of this invention. 本発明の第2の実施形態における概念関係調整プログラムP112によって実行される処理(ステップS111)のフローチャートである。It is a flowchart of the process (step S111) performed by the conceptual relationship adjustment program P112 in the 2nd Embodiment of this invention. 本発明の第2の実施形態における概念定義辞書D130の具体例の説明図である。It is explanatory drawing of the specific example of the concept definition dictionary D130 in the 2nd Embodiment of this invention. 本発明の第2の実施形態における概念辞書D140の具体例の説明図である。It is explanatory drawing of the specific example of the concept dictionary D140 in the 2nd Embodiment of this invention. 本発明の第2の実施形態における概念関係定義辞書D170の具体例の説明図である。It is explanatory drawing of the specific example of the conceptual relationship definition dictionary D170 in the 2nd Embodiment of this invention. 本発明の第2の実施形態における概念定義辞書および概念辞書のイメージ例の説明図である。It is explanatory drawing of the example of an image of the concept definition dictionary and concept dictionary in the 2nd Embodiment of this invention. 一般的な形態素解析エンジンにおけるラティス構造の一例である。It is an example of the lattice structure in a general morphological analysis engine.

以下、本発明を図示する実施形態に基づいて詳細に説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態を示すシステムの全体構成図である。
図1に示す通り、本実施形態の情報分析システムは情報分析辞書構築サブシステム101、情報分析サーバ102、情報分析クライアント103および104を備える。これらの各装置はネットワーク105によって接続されている。
情報分析辞書構築サブシステム101は、形態素解析に用いる単語辞書や連結辞書を再構築するための計算機であり、その詳細な構成は図2を用いて後述する。すなわち、情報分析辞書構築サブシステム101は、形態素解析に用いる単語辞書や連結辞書の他、言葉の意味概念を定義するための概念定義辞書と概念と単語を紐付けるための概念辞書を保持する。情報分析辞書構築サブシステム101は、これらの各種辞書を用いて、概念レベルでの生起コストと連接コストを算出し、それぞれ概念生起コスト辞書および概念連接コスト辞書として生成する。
その後、この概念生起コスト辞書および概念連接コスト辞書を元に単語辞書および連接辞書を再構築する。
Hereinafter, the present invention will be described in detail based on the illustrated embodiments.
<First Embodiment>
FIG. 1 is an overall configuration diagram of a system showing a first embodiment of the present invention.
As shown in FIG. 1, the information analysis system of this embodiment includes an information analysis dictionary construction subsystem 101, an information analysis server 102, and information analysis clients 103 and 104. Each of these devices is connected by a network 105.
The information analysis dictionary construction subsystem 101 is a computer for reconstructing a word dictionary and a connection dictionary used for morphological analysis, and a detailed configuration thereof will be described later with reference to FIG. That is, the information analysis dictionary construction subsystem 101 holds a concept dictionary for defining a semantic concept of a word and a concept dictionary for associating a concept with a word, in addition to a word dictionary and a connection dictionary used for morphological analysis. The information analysis dictionary construction subsystem 101 uses these various dictionaries to calculate occurrence costs and concatenation costs at the concept level, and generates them as a concept occurrence cost dictionary and a concept connection cost dictionary, respectively.
Thereafter, the word dictionary and the concatenation dictionary are reconstructed based on the concept occurrence cost dictionary and the concept concatenation cost dictionary.

再構築した単語辞書および連接辞書は、ネットワーク105を介して情報分析サーバ102に転送され、後に情報分析サーバ102が分析処理を行なう際に用いられる。   The reconstructed word dictionary and connection dictionary are transferred to the information analysis server 102 via the network 105 and used later when the information analysis server 102 performs analysis processing.

情報分析サーバ102は、情報を分析するための計算機であり、その詳細な構成は図23を用いて後述する。すなわち、情報分析サーバ102は、情報分析クライアント103および104から分析コマンドを受け取り、情報分析辞書構築サブシステム101から得られた各種辞書データを用いて分析コマンドの指定する条件に基づいてデータを分析し、結果データを要求元の情報分析クライアントに送り返す。   The information analysis server 102 is a computer for analyzing information, and a detailed configuration thereof will be described later with reference to FIG. That is, the information analysis server 102 receives analysis commands from the information analysis clients 103 and 104, and analyzes data based on conditions specified by the analysis commands using various dictionary data obtained from the information analysis dictionary construction subsystem 101. The result data is sent back to the requesting information analysis client.

情報分析クライアント103および104は、情報分析を行うユーザが操作するための計算機であり、その詳細な構成は図26を用いて後述する。すなわち、情報分析クライアント103および104は、ユーザが対話的に分析条件を指定するための画面をディスプレイ上に表示し、この画面上でユーザが指定した分析条件を情報分析サーバ102にとって解釈可能な分析コマンドの形に変換し、この分析コマンドをネットワーク105によって情報分析サーバ102に送信する。   The information analysis clients 103 and 104 are computers operated by a user who performs information analysis, and the detailed configuration thereof will be described later with reference to FIG. That is, the information analysis clients 103 and 104 display on the display a screen for the user to interactively specify analysis conditions, and the analysis conditions that can be interpreted by the information analysis server 102 on the screen are analyzed by the information analysis server 102. The data is converted into a command form, and the analysis command is transmitted to the information analysis server 102 via the network 105.

前記の通り、情報分析サーバ102が分析コマンドに対する処理を行い、結果データを送り返してくると、情報分析クライアントは受け取った結果データを画面に表示してユーザに提示する。なお、ユーザが分析条件を入力する形態としては、ユーザ自らキーボードから自然文を指定する場合、情報分析クライアントに蓄積されているテキストデータを用いる場合、フロッピーディスクや光ディスクなどの可搬型媒体からテキストデータを読み込む場合、あるいは、ネットワーク105を介して転送されてくるテキストデータを入力とする場合などが想定されるが、いずれの形態を利用しても構わない。   As described above, when the information analysis server 102 processes the analysis command and returns the result data, the information analysis client displays the received result data on the screen and presents it to the user. Note that the user inputs the analysis conditions as follows: when the user himself / herself specifies a natural sentence from the keyboard, when using text data stored in the information analysis client, text data from a portable medium such as a floppy disk or optical disk May be used, or text data transferred via the network 105 may be used as input, but any form may be used.

また、図1では、2台のコンピュータ103および104を情報分析クライアントとして使用する例を示したが、情報分析クライアントは1台のみとする構成を取ることも、3台以上とする構成を取ることもできる。   In addition, FIG. 1 shows an example in which two computers 103 and 104 are used as an information analysis client. However, the information analysis client may have a configuration of only one or three or more. You can also.

ネットワーク105は、ローカルエリアネットワーク(LAN)および(または)広域エリアネットワーク(WAN)であって、情報分析辞書サブシステム101、情報分析サーバ102、情報分析クライアント103および104が各種データやコマンドを送受信するために用いられる。   The network 105 is a local area network (LAN) and / or a wide area network (WAN), and the information analysis dictionary subsystem 101, the information analysis server 102, and the information analysis clients 103 and 104 transmit and receive various data and commands. Used for.

ここで、図1では、情報分析辞書構築サブシステム101から情報分析サーバ102に各種辞書データを転送するためにネットワーク105を使用するものとしたが、代わりにフロッピーディスクや光ディスクなどの可搬型媒体を使用する構成を取ることもできる。あるいは、情報分析辞書構築サブシステム101と情報分析サーバ102を1台のコンピュータ上に実装し、データ転送を行なわない構成を取ることもできる。   In FIG. 1, the network 105 is used to transfer various dictionary data from the information analysis dictionary construction subsystem 101 to the information analysis server 102. Instead, a portable medium such as a floppy disk or an optical disk is used. It can also take the structure to be used. Alternatively, the information analysis dictionary construction subsystem 101 and the information analysis server 102 may be mounted on a single computer and no data transfer may be performed.

さらに、図1では、情報分析クライアント103および104と情報分析サーバ102は別個のコンピュータを使用するものとしたが、1個以上の情報分析クライアントを情報分析サーバと同一のコンピュータ上で実行する構成を取ることもできる。   Furthermore, in FIG. 1, the information analysis clients 103 and 104 and the information analysis server 102 are assumed to use separate computers. However, one or more information analysis clients are executed on the same computer as the information analysis server. It can also be taken.

<情報分析辞書構築サブシステム101>
次に、本実施形態における情報分析辞書構築サブシステム101について説明する。
図2は、本実施形態における情報分析辞書構築サブシステム101の構成を示すブロック図である。
情報分析辞書構築サブシステム101は、メモリ110、記憶装置120、CPU(中央演算装置)130、出力装置140、入力装置150および通信インタフェース160を備え、これらの各構成がバス170によって接続される一般的な構成のコンピュータである。
メモリ110は、CPU130によって実行されるプログラムを格納する。具体的には、システム制御プログラムP10および情報分析辞書構築制御プログラムP11がメモリ110に格納される。また、メモリ110には、CPU130によるプログラムの実行時にデータを一時的に格納するワークエリアが設けられる。
<Information analysis dictionary construction subsystem 101>
Next, the information analysis dictionary construction subsystem 101 in this embodiment will be described.
FIG. 2 is a block diagram showing the configuration of the information analysis dictionary construction subsystem 101 in this embodiment.
The information analysis dictionary construction subsystem 101 includes a memory 110, a storage device 120, a CPU (Central Processing Unit) 130, an output device 140, an input device 150, and a communication interface 160. Computer with a typical configuration.
The memory 110 stores a program executed by the CPU 130. Specifically, the system control program P10 and the information analysis dictionary construction control program P11 are stored in the memory 110. The memory 110 is provided with a work area for temporarily storing data when the CPU 130 executes the program.

システム制御プログラムP10はいわゆるオペレーティングシステムであり、情報分析辞書構築サブシステム101の全体を制御する。
情報分析辞書構築制御プログラムP11は、情報分析のために必要となる辞書を構築するプログラムであり、概念コスト分析プログラムP111を含む。
概念コスト分析プログラムP111は、記憶装置120に存在する各種辞書を読み出し、単語の生起コストや連接コストを同定するために必要となる概念レベルでのコスト値を算出し、記憶装置120に格納する(図9のステップS107)プログラムである。
The system control program P10 is a so-called operating system, and controls the entire information analysis dictionary construction subsystem 101.
The information analysis dictionary construction control program P11 is a program for constructing a dictionary necessary for information analysis, and includes a conceptual cost analysis program P111.
The conceptual cost analysis program P111 reads various dictionaries existing in the storage device 120, calculates a cost value at a conceptual level necessary for identifying a word occurrence cost and a concatenation cost, and stores the cost value in the storage device 120 ( Step S107 in FIG. 9) is a program.

記憶装置120は、電源遮断時にも記憶内容を保持可能な不揮発性の記憶素子であり、例えば、磁気ディスクドライブ(HDD)やフラッシュメモリ(SSD)によって構成される。記憶装置120には、各種プログラムD100が格納される。この各種プログラムD100には、前述したシステム制御プログラムP10および情報分析辞書構築制御プログラムP11が含まれており、CPU130によって実行される際にメモリ110にロードされる。
また、記憶装置120には、単語辞書D110、連接辞書D120、概念提示辞書D130、概念辞書D140、概念生起コスト辞書D150および概念連接コスト辞書D160が格納される。
単語辞書D110は、一般的な形態素解析処理に用いられる単語辞書であり、図3に示すように単語の情報を保持する。なお、前述したように、図3に示したデータの他に、単語ID、品詞、活用形、単語の原形、読みなどを付加した形としても構わない。
The storage device 120 is a non-volatile storage element that can retain stored contents even when the power is shut off, and is configured by a magnetic disk drive (HDD) or a flash memory (SSD), for example. The storage device 120 stores various programs D100. The various programs D100 include the system control program P10 and the information analysis dictionary construction control program P11 described above, and are loaded into the memory 110 when executed by the CPU 130.
The storage device 120 also stores a word dictionary D110, a concatenation dictionary D120, a concept presentation dictionary D130, a concept dictionary D140, a concept occurrence cost dictionary D150, and a concept concatenation cost dictionary D160.
The word dictionary D110 is a word dictionary used for general morphological analysis processing, and holds word information as shown in FIG. As described above, in addition to the data shown in FIG. 3, a word ID, a part of speech, a utilization form, a word original form, a reading, and the like may be added.

連接辞書D120は、一般的な形態素解析処理に用いられる連接辞書であり、図4に示すように、単語に関する各文脈ID間の連接情報を保持する。
概念定義辞書D130は、図5に示すように概念を識別するためのID(識別子)と具体的な概念名とを紐付ける情報を保持する。なお、図5に示したデータの他に、概念そのものの定義や概念が属する品詞などその他の項目を付加した形としても構わない。
The concatenation dictionary D120 is a concatenation dictionary used for general morpheme analysis processing, and holds concatenation information between context IDs related to words as shown in FIG.
The concept definition dictionary D130 holds information for associating an ID (identifier) for identifying a concept with a specific concept name as shown in FIG. In addition to the data shown in FIG. 5, other items such as the definition of the concept itself and the part of speech to which the concept belongs may be added.

概念辞書D140は、図6に示すように、概念IDと単語とを紐付ける情報を保持する。なお、概念IDと単語という項目だけでなく、単語ID、品詞、活用形、単語の原形、読みなどといった単語の情報の他、概念と単語を紐付ける際の重み値などその他の項目を追加しても構わない。
概念生起コスト辞書D150は、図7に示すように、概念に関する情報、特に、生起コスト情報を保持する。基本的なデータ構造としては、単語辞書D110と同様の形態となるが、独自の項目を追加しても構わない。
The concept dictionary D140 holds information for associating a concept ID with a word, as shown in FIG. In addition to the items of concept ID and word, in addition to word information such as word ID, part of speech, inflection form, word original form, reading, etc., other items such as a weight value for linking the concept and word are added. It doesn't matter.
As shown in FIG. 7, the concept occurrence cost dictionary D150 holds information about the concept, in particular, occurrence cost information. The basic data structure is the same as that of the word dictionary D110, but an original item may be added.

概念連接コスト辞書D160は、図8に示すように、概念に関する各文脈ID間の情報を保持する。基本的なデータ構造としては、連接辞書D120と同様の形態となるが、独自の項目を追加しても構わない。   As shown in FIG. 8, the concept connection cost dictionary D160 holds information between context IDs related to concepts. The basic data structure is the same as that of the concatenation dictionary D120, but an original item may be added.

CPU130は、メモリ110に格納されたプログラムを実行する。
出力装置140は、処理の結果を画面に表示するディスプレイや、紙に出力するプリンタなどである。
入力装置150は、ユーザが情報分析辞書構築サブシステム101に指示を与えるためのキーボード、マウスなどである。
CPU 130 executes a program stored in memory 110.
The output device 140 is a display that displays the processing result on a screen, a printer that outputs the result to paper, or the like.
The input device 150 is a keyboard, a mouse, or the like for a user to give an instruction to the information analysis dictionary construction subsystem 101.

情報分析辞書構築サブシステム101は、情報分析辞書構築制御プログラムP11を実行することによって得られた各種辞書を、記憶装置120に格納する。その後、情報分析サーバ102からの要求に従い、ネットワーク105を介して、情報分析サーバ102に転送する。次に、この処理手順の詳細について説明する。   The information analysis dictionary construction subsystem 101 stores various dictionaries obtained by executing the information analysis dictionary construction control program P11 in the storage device 120. Thereafter, the information is transferred to the information analysis server 102 via the network 105 according to the request from the information analysis server 102. Next, details of this processing procedure will be described.

図9は、本発明の第一の実施形態における情報分析辞書構築サブシステム101によって実行される処理のフローチャートである。
まず、ユーザあるいは情報分析サーバ102からのリクエストを受信すると(ステップS101)、受信したリクエストを解析する(ステップS202)。
受信したリクエストが辞書構築コマンドである場合、要求された登録内容に応じて情報を記憶装置120に格納する。
具体的には、単語辞書の登録要求であれば、受信した単語辞書情報を単語辞書格納領域D110に格納する(ステップS103)。連接辞書の登録要求であれば、受信した連接辞書情報を連接辞書格納領域D120に格納する(ステップS104)。概念定義辞書の登録要求であれば、受信した概念定義辞書情報を概念定義辞書格納領域D130に格納する(ステップS105)。概念辞書の登録要求であれば、受信した概念辞書情報を概念辞書格納領域D140に格納する(ステップS106)。概念コストの算出要求であれば、概念コスト生成プログラムP111を実行することにより、記憶装置120内に存在する単語辞書D110、連接辞書D120、概念定義辞書D130、概念辞書D140を元に、概念における生起コストと連接コストを算出し、概念生起コスト辞書格納領域D150および概念連接コスト辞書格納領域D160に格納する(ステップS107)。
FIG. 9 is a flowchart of processing executed by the information analysis dictionary construction subsystem 101 according to the first embodiment of this invention.
First, when a request from the user or the information analysis server 102 is received (step S101), the received request is analyzed (step S202).
If the received request is a dictionary construction command, information is stored in the storage device 120 according to the requested registration content.
Specifically, if it is a word dictionary registration request, the received word dictionary information is stored in the word dictionary storage area D110 (step S103). If it is a connection dictionary registration request, the received connection dictionary information is stored in the connection dictionary storage area D120 (step S104). If it is a concept definition dictionary registration request, the received concept definition dictionary information is stored in the concept definition dictionary storage area D130 (step S105). If it is a concept dictionary registration request, the received concept dictionary information is stored in the concept dictionary storage area D140 (step S106). If it is a request for calculating a concept cost, the concept cost generation program P111 is executed to generate a concept cost based on the word dictionary D110, the concatenation dictionary D120, the concept definition dictionary D130, and the concept dictionary D140 existing in the storage device 120. The cost and the connection cost are calculated and stored in the concept occurrence cost dictionary storage area D150 and the concept connection cost dictionary storage area D160 (step S107).

なお、ステップS107、すなわち、概念コスト分析プログラムP111の詳細については、図10を用いて後述する。ステップS103乃至ステップS107の処理の終了後、ステップS101に戻り、他のリクエストの受信を待つ。
一方、受信したリクエストが情報転送コマンドである場合、要求された問合せ内容に応じた情報を記憶装置120から読み出して(ステップS108)、読み出した情報を要求元に送信する(ステップS109)。その後、ステップS101に戻り、他のリクエストの受信を待つ。
Details of step S107, that is, the conceptual cost analysis program P111 will be described later with reference to FIG. After the processing from step S103 to step S107 is completed, the process returns to step S101 to wait for reception of another request.
On the other hand, when the received request is an information transfer command, information corresponding to the requested inquiry content is read from the storage device 120 (step S108), and the read information is transmitted to the request source (step S109). Thereafter, the process returns to step S101 and waits for reception of another request.

一方、受信したリクエストがサブシステム停止コマンドである場合、情報分析辞書構築サブシステム101の動作を終了する。
ここで、概念コスト分析プログラムP111、すなわち、図9におけるステップS107の詳細について、図面を用いて説明する。
On the other hand, when the received request is a subsystem stop command, the operation of the information analysis dictionary construction subsystem 101 is terminated.
Here, the details of the conceptual cost analysis program P111, that is, step S107 in FIG. 9, will be described with reference to the drawings.

図10は、本発明の第一の実施形態における概念コスト分析プログラムP111によって実行される処理のフローチャートである。
まず、概念コスト分析プログラムP111は、記憶装置120から概念辞書D140を取得し、ワークエリアに格納する(ステップS10701)。その後、ループを制御するパラメータnを1に初期設定する(ステップS10702)。
そして、ワークエリアに格納した概念辞書D140から、n番目の概念情報を読み出す(ステップS10703)。なお、概念情報とは、概念IDと単語が紐付いた情報のことを指す。
FIG. 10 is a flowchart of processing executed by the conceptual cost analysis program P111 in the first embodiment of the present invention.
First, the conceptual cost analysis program P111 acquires the conceptual dictionary D140 from the storage device 120 and stores it in the work area (step S10701). Thereafter, the parameter n for controlling the loop is initialized to 1 (step S10702).
Then, the nth concept information is read from the concept dictionary D140 stored in the work area (step S10703). The concept information refers to information in which a concept ID is associated with a word.

読み出した概念情報を元に、概念生起コストモデル、概念連接コストモデル、未処理単語モデルといった辞書構築に用いるモデルを更新する(ステップS10704)。なお、ステップS10704の処理および概念生起コストモデル、概念連接コストモデル、未処理単語モデルの詳細については、図11乃至図14を用いて後述する。   Based on the read concept information, a model used for dictionary construction such as a concept occurrence cost model, a concept connection cost model, and an unprocessed word model is updated (step S10704). Details of the processing in step S10704 and the concept occurrence cost model, concept concatenation cost model, and unprocessed word model will be described later with reference to FIGS.

その後、n+1番目の概念情報が存在するかどうかを判定する(ステップS10705)。その結果、次(n+1番目)の概念情報が存在すれば、パラメータに1を加算し(ステップS10706)、ステップS10703に戻り、次の概念情報についての分析を実行する。   Thereafter, it is determined whether or not the (n + 1) th concept information exists (step S10705). As a result, if the next (n + 1) th conceptual information exists, 1 is added to the parameter (step S10706), and the process returns to step S10703 to perform analysis on the next conceptual information.

一方、次(n+1番目)の概念情報が存在しない場合、ステップS10701にて得られた全ての概念情報についての分析が終了しているため、更新された各種モデルを用いて各種辞書を生成し(ステップS10707)、概念コスト分析プログラムP111を終了する。なお、ステップS10707の詳細については、図15乃至図19を用いて後述する。   On the other hand, if there is no next (n + 1) th concept information, the analysis for all the concept information obtained in step S10701 has been completed, so various dictionaries are generated using the various models updated ( Step S10707), the conceptual cost analysis program P111 is terminated. Details of step S10707 will be described later with reference to FIGS.

以上が、概念コスト分析プログラムP111の処理概要である。ここでは、上記ステップS10704の処理およびステップS10707の処理の詳細について記載する。
まず、ステップS10704、すなわち、辞書構築に用いるモデルの更新処理について図面を用いて説明する。
図11は、ステップS10704において実行される処理のフローチャートである。
概念IDと単語が紐付いた情報を入力として、ステップS10704が実行されると、まず、記憶装置120から単語辞書D110を取得し、ワークエリアに格納する(ステップS1070401)。さらに、記憶装置120から連接辞書D120を取得し、ワークエリアに格納する(ステップS1070402)。その後、ループを制御するパラメータsを1に初期設定する(ステップS1070403)。
The above is the processing outline of the conceptual cost analysis program P111. Here, the details of the processing in step S10704 and the processing in step S10707 will be described.
First, step S10704, that is, a model update process used for dictionary construction will be described with reference to the drawings.
FIG. 11 is a flowchart of the process executed in step S10704.
When the information associated with the concept ID and the word is input and step S10704 is executed, first, the word dictionary D110 is acquired from the storage device 120 and stored in the work area (step S1070401). Further, the connection dictionary D120 is acquired from the storage device 120 and stored in the work area (step S1070402). Thereafter, the parameter s for controlling the loop is initialized to 1 (step S107043).

そして、ワークエリアに格納した単語辞書D110から、s番目の単語情報を読み出す(ステップS1070404)。
読み出したs番目の単語情報が、入力値である単語と合致するか否かを判定し(ステップS1070405)、合致すれば、ステップS1070406およびステップS1070407の処理を実行する。合致しなければ、ステップS1070408乃至ステップS1070410の処理を実行する。
ステップS1070405において、入力値である単語と合致すると判定した場合、入力値として得られた概念IDとs番目の単語情報内に存在する左文脈ID、右文脈ID、生起コストを元に、概念生起コストモデルを更新(追記)する(ステップS1070406)。
Then, the sth word information is read from the word dictionary D110 stored in the work area (step S1070404).
It is determined whether or not the read sth word information matches the word that is the input value (step S1070405). If they match, the processing of step S1070406 and step S1070407 is executed. If they do not match, the processing from step S1070408 to step S1070410 is executed.
If it is determined in step S1070405 that the input value matches the word, the concept occurrence is based on the concept ID obtained as the input value and the left context ID, right context ID, and occurrence cost existing in the sth word information. The cost model is updated (added) (step S1070406).

図12は、概念生起コストモデルのデータ構造の一例を示す図である。
概念生起コストモデルはワークエリア内で存在し、図12で示す通り、概念を識別するIDと左文脈ID、右文脈ID、生起コストが格納できるようになっている。このモデルに対して、得られたデータをそのまま追記するという形になる。なお、ここでは、概念生起コストモデルはワークエリア内に存在することとしたが、記憶装置120内に概念生起コストモデルを格納するための専用領域を確保し、そこで更新処理を実行するようにしても構わない。
FIG. 12 is a diagram illustrating an example of a data structure of a concept occurrence cost model.
The concept occurrence cost model exists in the work area, and as shown in FIG. 12, the ID for identifying the concept, the left context ID, the right context ID, and the occurrence cost can be stored. The data obtained is directly added to this model. Here, the concept occurrence cost model is assumed to exist in the work area. However, a dedicated area for storing the concept occurrence cost model is secured in the storage device 120, and the update process is executed there. It doesn't matter.

その後、ワークエリアに格納した連接辞書D120を走査し、s番目の単語情報内に存在する左文脈IDおよび右文脈IDと合致する連接情報を取得する。取得した連接情報に基づき、概念連接コストモデルを更新(追記)する(ステップS1070407)。
図13は、概念連接コストモデルのデータ構造の一例を示す図である。
概念連接コストモデルはワークエリア内で存在し、図13で示す通り、左文脈ID、右文脈ID、連接コストが格納できるようになっている。また、左文脈IDと右文脈IDをキーにした場合に、複数の連接コストが格納できるような形となっている。このモデルに対して、得られたデータをそのまま追記するという形になる。なお、ここでは、概念連接コストモデルはワークエリア内に存在することとしたが、記憶装置120内に概念連接コストモデルを格納するための専用領域を確保し、そこで更新処理を実行するようにしても構わない。
ステップS1070407の処理が終わると、ステップS10704の処理を終了する。
Thereafter, the concatenation dictionary D120 stored in the work area is scanned to obtain concatenation information that matches the left context ID and the right context ID existing in the sth word information. Based on the acquired connection information, the concept connection cost model is updated (added) (step S1070407).
FIG. 13 is a diagram illustrating an example of a data structure of the conceptual connection cost model.
The conceptual connection cost model exists in the work area, and as shown in FIG. 13, the left context ID, the right context ID, and the connection cost can be stored. In addition, when the left context ID and the right context ID are used as keys, a plurality of concatenated costs can be stored. The data obtained is directly added to this model. Here, it is assumed that the conceptual connected cost model exists in the work area. However, a dedicated area for storing the conceptual connected cost model is secured in the storage device 120, and update processing is executed there. It doesn't matter.
When the process of step S1070407 ends, the process of step S10704 ends.

一方、ステップS1070405において、入力値である単語と合致しないと判定した場合、ワークエリアに格納した単語辞書D110に次の単語情報が存在するか否かを確認する(ステップS1070408)。
その結果、次(s+1番目)の単語情報が存在すれば、パラメータに“1”を加算し(ステップS1070409)、ステップS1070404に戻り、次の単語情報についての処理を実行する。
On the other hand, if it is determined in step S1070405 that the input value does not match the word, it is confirmed whether or not the next word information exists in the word dictionary D110 stored in the work area (step S1070408).
As a result, if the next (s + 1) th word information exists, “1” is added to the parameter (step S1070409), and the process returns to step S1070404 to execute the process for the next word information.

一方、次(s+1番目)の単語情報が存在しない場合、ステップS1070401にて得られた全ての単語情報についての処理が終了しており、該当する単語情報が存在しなかったと考えられるため、入力値である概念情報を元に、未処理単語モデルを更新(追記)する(ステップS1070410)。   On the other hand, if the next (s + 1) th word information does not exist, the processing for all the word information obtained in step S1070401 is complete, and it is considered that the corresponding word information does not exist. The unprocessed word model is updated (added) based on the concept information (step S1070410).

図14は、未処理単語モデルのデータ構造の一例を示す図である。
未処理単語モデルはワークエリア内で存在し、図14で示す通り、単語そのものと概念を識別するIDが紐付いて格納できるようになっている。このモデルに対して、得られたデータをそのまま追記するという形になる。基本的なデータ構造としては、図6に示した概念辞書と同様の形態であるため、概念辞書のデータ構造に合わせて、図14で示した項目以外の項目を追加しても構わない。なお、ここでは、未処理単語モデルはワークエリア内に存在することとしたが、記憶装置120内に未処理単語モデルを格納するための専用領域を確保し、そこで更新処理を実行するようにしても構わない。
ステップS1070410の処理が終わった後、ステップS10704の処理を終了する。
以上がステップS10704の処理の詳細である。
FIG. 14 is a diagram illustrating an example of the data structure of the unprocessed word model.
The unprocessed word model exists in the work area, and as shown in FIG. 14, the word itself and the ID for identifying the concept can be stored in association with each other. The data obtained is directly added to this model. Since the basic data structure is the same as that of the concept dictionary shown in FIG. 6, items other than the items shown in FIG. 14 may be added in accordance with the data structure of the concept dictionary. Here, the unprocessed word model is assumed to exist in the work area. However, a dedicated area for storing the unprocessed word model is secured in the storage device 120, and update processing is executed there. It doesn't matter.
After the process of step S1070410 is completed, the process of step S10704 is terminated.
The above is the details of the processing in step S10704.

次に、ステップS10707、すなわち、モデルを用いて各種辞書を生成する処理について図面を用いて説明する。
図15は、ステップS10707において実行される処理の概要を示すフローチャートである。
ステップS10707では、まず、概念生起コスト辞書を生成し(ステップS107071)、概念連接コスト辞書を生成する(ステップS107072)。その後、形態素解析に用いる単語辞書を生成し(ステップS107073)、同じく形態素解析に用いる連接辞書を生成する(ステップS107074)という流れになる。なお、ステップS107071乃至ステップS107074の詳細については、図面を用いて後述する。
まず、ステップS107071、すなわち、概念生起コスト辞書の生成処理について図面を用いて説明する。
Next, step S10707, that is, processing for generating various dictionaries using a model will be described with reference to the drawings.
FIG. 15 is a flowchart showing an overview of the processing executed in step S10707.
In step S10707, first, a concept occurrence cost dictionary is generated (step S107071), and a concept concatenation cost dictionary is generated (step S107072). Thereafter, a word dictionary used for morphological analysis is generated (step S107073), and a concatenated dictionary used for morphological analysis is generated (step S107074). Note that details of steps S107071 to S107074 will be described later with reference to the drawings.
First, step S107071, that is, a concept generation cost dictionary generation process will be described with reference to the drawings.

図16は、ステップS107071において実行される処理のフローチャートである。
ステップS107071では、まず、ワークエリア内に存在する概念生起コストモデルを取得する(ステップS10707101)。さらに、記憶装置120に存在する概念定義辞書D130を取得し、ワークエリアに格納する(ステップS10707102)。
概念生起コストモデルに存在する概念IDおよび概念定義辞書D130に存在する概念IDを元に、構築対象となる概念IDの全リストを作成する(ステップS10707103)。その後、ループを制御するパラメータiを“1”に初期設定する(ステップS10707104)。
FIG. 16 is a flowchart of the process executed in step S107071.
In step S107071, first, a concept occurrence cost model existing in the work area is acquired (step S10707101). Further, the concept definition dictionary D130 existing in the storage device 120 is acquired and stored in the work area (step S10707102).
Based on the concept ID existing in the concept occurrence cost model and the concept ID existing in the concept definition dictionary D130, a complete list of concept IDs to be constructed is created (step S10707103). Thereafter, the parameter i for controlling the loop is initialized to “1” (step S10707104).

そして、構築対象となる概念IDの全リストから、i番目の概念IDを読み出す(ステップS10707105)。読み出した概念IDを元に、概念生起コストモデルを走査し、該概念における左文脈IDを決定する(ステップS10707106)。この左文脈IDの決定には、該概念IDに該当する概念生起コストモデルにおいて、最頻となる左文脈IDを設定すればよい。同様にして、該概念における右文脈IDを決定する(ステップS10707107)。   Then, the i-th concept ID is read out from the entire list of concept IDs to be constructed (step S10707105). Based on the read concept ID, the concept occurrence cost model is scanned to determine the left context ID in the concept (step S10707106). This left context ID may be determined by setting the left context ID that is most frequent in the concept occurrence cost model corresponding to the concept ID. Similarly, the right context ID in the concept is determined (step S10707107).

次に、読み出した概念IDを元に、概念生起コストモデルを走査し、該概念における生起コストを算出する(ステップS10707108)。この生起コストの算出には、該概念IDに該当する概念生起コストモデルにおける生起コストの平均値を設定してもよいし、該概念IDに該当する概念生起コストモデルにおける生起コストの最頻値を設定してもよい。   Next, the concept occurrence cost model is scanned based on the read concept ID, and the occurrence cost in the concept is calculated (step S10707108). In calculating the occurrence cost, an average value of the occurrence cost in the concept occurrence cost model corresponding to the concept ID may be set, or the mode value of the occurrence cost in the concept occurrence cost model corresponding to the concept ID is set. It may be set.

ステップS10707106乃至ステップS10707109による生起コスト計算が終了すると、概念IDをキーとして、記憶装置120に存在する概念生起コスト辞書D150のデータを更新する(ステップS10707109)。
その後、構築対象となる概念IDの全リストに次の概念IDが存在するか否かを確認する(S10707110)。
その結果、次(i+1番目)の情報が存在すれば、パラメータに“1”を加算し(ステップS10707111)、ステップS10707105に戻り、次の単語情報についての処理を実行する。
When the occurrence cost calculation in steps S10707106 to S10707109 is completed, the data of the concept occurrence cost dictionary D150 existing in the storage device 120 is updated using the concept ID as a key (step S10707109).
Thereafter, it is confirmed whether or not the next concept ID exists in the entire list of concept IDs to be constructed (S10707110).
As a result, if the next (i + 1) th information exists, “1” is added to the parameter (step S10707111), the process returns to step S10707105, and the process for the next word information is executed.

一方、次(i+1番目)の情報が存在しない場合、ステップS10707103にて構築した全ての概念情報についての処理が終了していると考えられるため、ステップS107071の処理を終了する。
以上が、ステップS107071の詳細な説明である。
On the other hand, if the next (i + 1) th information does not exist, it is considered that the processing for all the conceptual information constructed in step S10707103 has been completed, and thus the processing in step S107071 is terminated.
The above is the detailed description of step S107071.

次に、ステップS107072、すなわち、概念連接コスト辞書の生成処理について図面を用いて説明する。
図17は、ステップS107072において実行される処理のフローチャートである。
ステップS107072では、まず、ワークエリア内に存在する概念連接コストモデルを取得する(ステップS10707201)。さらに、記憶装置120に存在する概念生起コスト辞書D150を取得し、ワークエリアに格納する(ステップS10707202)。
概念連接コストモデルに存在する左文脈ID、右文脈IDおよび概念生起コスト辞書D150に存在する左文脈ID、右文脈IDを元に、構築対象となる左文脈IDと右文脈IDのペアの全リストを作成する(ステップS10707203)。
その後、ループを制御するパラメータiを“1”に初期設定する(ステップS10707204)。
Next, step S107072, that is, a concept connection cost dictionary generation process will be described with reference to the drawings.
FIG. 17 is a flowchart of the process executed in step S107072.
In step S107072, first, a concept connection cost model existing in the work area is acquired (step S10707201). Further, the concept occurrence cost dictionary D150 existing in the storage device 120 is acquired and stored in the work area (step S10707202).
Full list of left context ID and right context ID pairs to be constructed based on the left context ID, right context ID, and left context ID, right context ID present in the concept occurrence cost dictionary D150 existing in the concept concatenation cost model Is created (step S10707203).
Thereafter, the parameter i for controlling the loop is initialized to “1” (step S10707204).

そして、構築対象となる左文脈IDと右文脈IDのペアの全リストから、i番目の左文脈IDと右文脈IDのペアを読み出す(ステップS10707205)。読み出した左文脈IDと右文脈IDのペアを元に、概念連接コストモデルを走査し、左文脈IDと右文脈IDのペアにおける連接コスト値を算出する(ステップS10707106)。この左文脈IDと右文脈IDのペアにおける連接コスト値の算出には、概念連接コストモデルのうち、左文脈IDと右文脈IDのペアに該当する集合における連接コストの平均値を採用してもよいし、最頻値を採用してもよい。   Then, the i-th left context ID / right context ID pair is read from the entire list of left context ID / right context ID pairs to be constructed (step S10707205). Based on the read left context ID and right context ID pair, the conceptual concatenation cost model is scanned to calculate the concatenation cost value for the left context ID and right context ID pair (step S10707106). For calculating the concatenated cost value in the left context ID and right context ID pair, an average value of concatenated costs in the set corresponding to the left context ID and right context ID pair in the conceptual concatenated cost model may be adopted. The mode value may be adopted.

連接コスト計算が終了すると、得られた左文脈IDと右文脈IDをキーとして、記憶装置120に存在する概念連接コスト辞書D160のデータを更新する(ステップS10707207)。
その後、構築対象となる左文脈IDと右文脈IDのペアの全リストに次のペアが存在するか否かを確認する(S10707108)。
その結果、次(i+1番目)の情報が存在すれば、パラメータに“1”を加算し(ステップS10707109)、ステップS10707205に戻り、次の単語情報についての処理を実行する。
When the connection cost calculation is completed, the data of the concept connection cost dictionary D160 existing in the storage device 120 is updated using the obtained left context ID and right context ID as keys (step S10707207).
Thereafter, it is confirmed whether or not the next pair exists in the entire list of left context ID and right context ID pairs to be constructed (S10707108).
As a result, if the next (i + 1) th information exists, “1” is added to the parameter (step S10707109), and the process returns to step S10707205 to execute the process for the next word information.

一方、次(i+1番目)の情報が存在しない場合、ステップS10707203にて構築した全てのリストについての処理が終了していると考えられるため、ステップS107072の処理を終了する。
以上が、ステップS107072の詳細な説明である。
次に、ステップS107073、すなわち、形態素解析に用いる単語辞書の生成処理について図面を用いて説明する。
On the other hand, if the next (i + 1) th information does not exist, it is considered that the processing for all the lists constructed in step S10707203 has been completed, and thus the processing in step S107072 is terminated.
The above is the detailed description of step S107072.
Next, step S107073, that is, word dictionary generation processing used for morphological analysis will be described with reference to the drawings.

図18は、ステップS107073において実行される処理のフローチャートである。
ステップS107073では、まず、記憶装置120に存在する概念生起コスト辞書D150を取得し、ワークエリアに格納する(ステップS10707301)。さらに、ワークエリアに存在する未処理単語モデルを取得する(ステップS10707302)。
その後、ループを制御するパラメータiを“1”に初期設定する(ステップS10707303)。
そして、未処理単語モデルから、i番目の単語情報を読み出す(ステップS10707304)。
FIG. 18 is a flowchart of the process executed in step S107073.
In step S107073, first, the concept occurrence cost dictionary D150 existing in the storage device 120 is acquired and stored in the work area (step S10707301). Further, an unprocessed word model existing in the work area is acquired (step S10707302).
Thereafter, the parameter i for controlling the loop is initialized to “1” (step S10707303).
Then, the i-th word information is read from the unprocessed word model (step S10707304).

読み出した単語情報内に存在する概念IDを元に、概念生起コスト辞書D150を走査し、該概念における左文脈ID、右文脈ID、生起コストを取得する(ステップS10707305)。取得した概念生起コストを元に、該単語の生起コストを算出する(ステップS10707306)。算出した生起コストは、単語と前述した該概念における左文脈ID、右文脈IDを紐付けて、ワークエリアに格納する。この該単語の生起コストの算出には、取得した概念生起コストをそのまま設定する方法の他に、単語の文字列長を考慮する方法がある。   Based on the concept ID present in the read word information, the concept occurrence cost dictionary D150 is scanned to obtain the left context ID, right context ID, and occurrence cost in the concept (step S10707305). Based on the acquired concept occurrence cost, the occurrence cost of the word is calculated (step S10707306). The calculated occurrence cost is stored in the work area by associating the word with the left context ID and the right context ID in the aforementioned concept. In calculating the word occurrence cost, there is a method that considers the character string length of the word in addition to the method of setting the acquired concept occurrence cost as it is.

例えば、「日立」と「日立ソリューションズ」が共に同じ生起コスト値であった場合、形態素解析処理上、文字列長が短いものが優先される傾向にあり、かつ、文字列長が長いほど、その単語として確定する可能性は高いため、文字列長が長いほど生起コストは低くするという方法である。具体的には、図14の下段に示した数式1を用いるとよい。
ステップS10707305およびステップS10707306による生起コスト計算が終了すると、構築対象となる未処理単語の全リストに次の未処理単語が存在するか否かを確認する(S10707307)。
For example, if both “Hitachi” and “Hitachi Solutions” have the same occurrence cost value, the one with the shorter string length tends to be prioritized for morphological analysis, and the longer the string length, Since there is a high possibility of being confirmed as a word, the longer the character string length, the lower the occurrence cost. Specifically, Equation 1 shown in the lower part of FIG. 14 may be used.
When the occurrence cost calculation in step S10707305 and step S10707306 is completed, it is confirmed whether or not the next unprocessed word exists in the entire list of unprocessed words to be constructed (S10707307).

その結果、次(i+1番目)の未処理単語が存在すれば、パラメータに“1”を加算し(ステップS10707308)、ステップS10707304に戻り、次の単語情報についての処理を実行する。
一方、次(i+1番目)の未処理単語が存在しない場合、全ての未処理単語についての処理が終了していると考えられるため、ワークエリア内に存在する処理済みのデータを元に、記憶装置120に存在する単語辞書格納領域D110を更新する(ステップS10707309)。
全ての更新処理が終了後、ステップS107073の処理を終了する。
以上が、ステップS107073の詳細な説明である。
As a result, if there is a next (i + 1) th unprocessed word, “1” is added to the parameter (step S10707308), the process returns to step S10707304, and the process for the next word information is executed.
On the other hand, if the next (i + 1) th unprocessed word does not exist, it is considered that the processing for all the unprocessed words has been completed, so the storage device is based on the processed data existing in the work area. The word dictionary storage area D110 existing in 120 is updated (step S10707309).
After all the update processes are completed, the process of step S107073 is terminated.
The above is the detailed description of step S107073.

次に、ステップS107074、すなわち、形態素解析に用いる連接辞書の生成処理について図面を用いて説明する。
図19は、ステップS107074において実行される処理のフローチャートである。
ステップS107074では、まず、記憶装置120内に存在する概念連接コスト辞書D160を取得する(ステップS10707401)。さらに、記憶装置120に存在する連接辞書D120を取得し、ワークエリアに格納する(ステップS10707402)。
概念連接コスト辞書D160に存在する左文脈ID、右文脈IDおよび連接辞書D120に存在する左文脈ID、右文脈IDを元に、構築対象となる左文脈IDと右文脈IDのペアの全リストを作成する(ステップS10707403)。
Next, step S107074, that is, a process for generating a connected dictionary used for morphological analysis will be described with reference to the drawings.
FIG. 19 is a flowchart of processing executed in step S107074.
In step S107074, first, the concept concatenation cost dictionary D160 existing in the storage device 120 is acquired (step S10707401). Further, the connection dictionary D120 existing in the storage device 120 is acquired and stored in the work area (step S10707402).
Based on the left context ID and right context ID existing in the concept concatenation cost dictionary D160 and the left context ID and right context ID existing in the concatenation dictionary D120, a complete list of pairs of left context ID and right context ID to be constructed is obtained. It is created (step S10707403).

その後、ループを制御するパラメータiを“1”に初期設定する(ステップS10707404)。
そして、構築対象となる左文脈IDと右文脈IDのペアの全リストから、i番目の左文脈IDと右文脈IDのペアを読み出す(ステップS10707405)。読み出した左文脈IDと右文脈IDのペアを元に、概念連接コスト辞書D160と連接辞書D120を走査し(ステップS10707406)、左文脈IDと右文脈IDのペアにおける連接コスト値を算出する(ステップS10707107)。
Thereafter, the parameter i for controlling the loop is initialized to “1” (step S10707404).
Then, the i-th left context ID / right context ID pair is read out from the entire list of left context ID / right context ID pairs to be constructed (step S10707405). Based on the read pair of the left context ID and the right context ID, the concept concatenation cost dictionary D160 and the concatenation dictionary D120 are scanned (step S10707406), and the concatenation cost value in the pair of the left context ID and the right context ID is calculated (step S10707406). S10707107).

この左文脈IDと右文脈IDのペアにおける連接コスト値の算出には、概念連接コスト辞書D160と連接辞書D120に存在する左文脈IDと右文脈IDのペアの連接コスト値の最大値を採用してもよいし、概念連接コスト辞書D160と連接辞書D120の両方に該ペアの値が存在する場合は、平均値を採用してもよい。算出した連接コストは、左文脈IDおよび右文脈IDのペアと紐付けて、ワークエリアに格納する。   The calculation of the concatenated cost value in the left context ID / right context ID pair employs the maximum concatenated cost value of the left context ID / right context ID pair existing in the conceptual concatenation cost dictionary D160 and the concatenation dictionary D120. Alternatively, when the value of the pair exists in both the conceptual connection cost dictionary D160 and the connection dictionary D120, an average value may be adopted. The calculated concatenated cost is stored in the work area in association with the left context ID and right context ID pair.

ステップS10707406およびステップS10707407による連接コスト計算が終了すると、構築対象となる左文脈IDと右文脈IDのペアの全リストに次のペアが存在するか否かを確認する(S10707408)。
その結果、次(i+1番目)のペアが存在すれば、パラメータに“1”を加算し(ステップS10707409)、ステップS10707405に戻り、次のペアについての処理を実行する。
When the connection cost calculation in step S10707406 and step S10707407 is completed, it is confirmed whether or not the next pair exists in the entire list of left context ID and right context ID pairs to be constructed (S10707408).
As a result, if there is a next (i + 1) th pair, “1” is added to the parameter (step S10707409), the process returns to step S10707405, and the process for the next pair is executed.

一方、次(i+1番目)のペアが存在しない場合、全ての構築対象となる左文脈IDと右文脈IDのペアについての処理が終了していると考えられるため、ワークエリア内に存在する処理済みのデータを元に、記憶装置120に存在する連接辞書格納領域D120を更新する(ステップS10707410)。
全ての更新処理が終了後、ステップS107074の処理を終了する。
以上が、ステップS107074の詳細な説明である。
On the other hand, if the next (i + 1) th pair does not exist, it is considered that the processing for all the left context ID and right context ID pairs to be constructed has been completed. Based on the data, the concatenated dictionary storage area D120 existing in the storage device 120 is updated (step S10707410).
After all the update processes are finished, the process of step S107074 is finished.
The above is the detailed description of step S107074.

以上、本発明の第1の実施形態における情報分析辞書構築サブシステム101のシステム構成および処理概要についての説明である。
以下では、第1の実施例における情報分析辞書構築処理について、具体的な例を用いて説明する。
The above is an explanation of the system configuration and processing overview of the information analysis dictionary construction subsystem 101 according to the first embodiment of the present invention.
Hereinafter, the information analysis dictionary construction process in the first embodiment will be described using a specific example.

<情報分析辞書構築の具体例>
形態素解析を実行するための辞書に単語を登録するためには、その単語が辞書内に存在するかを確認し、存在していなければ、新規に単語を登録するという手順となる。本実施形態では、その確認作業を軽減するための施策についても後述することになるが、ここでは、「京大」という単語が形態素解析を実行するための辞書に存在せず、新たに登録したい場合を例にして説明する。
前述したように、通常であれば、図3のような単語辞書に「京大」という単語を追加し、左文脈ID、右文脈ID、生起コストという値について試行錯誤を繰り返して設定しなくてはならなかった。また、左文脈IDもしくは右文脈IDとして記載するIDを新規に作成した場合には、図4のような連接辞書に対して、該当するIDの組み合わせおよびその連接コストを試行錯誤で設定しなくてはならなかった。そのため、メンテナンスにおけるコストが増大するという問題があった。
本実施形態では、その試行錯誤を繰り返すことによるコストが必要でなくなることを示す。
<Specific example of information analysis dictionary construction>
In order to register a word in the dictionary for executing morphological analysis, it is confirmed whether or not the word exists in the dictionary, and if it does not exist, a new word is registered. In this embodiment, measures for reducing the confirmation work will be described later, but here, the word “Kyoto University” does not exist in the dictionary for executing morphological analysis, and it is desired to newly register it. A case will be described as an example.
As described above, normally, the word “Kyoto University” is added to the word dictionary as shown in FIG. 3, and the values of the left context ID, the right context ID, and the occurrence cost are not repeatedly set through trial and error. I didn't. Further, when a new ID to be described as the left context ID or the right context ID is created, the combination of corresponding IDs and the connection cost thereof are not set by trial and error in the connection dictionary as shown in FIG. I didn't. Therefore, there has been a problem that the cost for maintenance increases.
In this embodiment, it shows that the cost by repeating the trial and error becomes unnecessary.

まず、図3のような単語辞書を用意し、登録する。具体的には、図9におけるステップS103の処理を実行する。この単語辞書は一般に形態素解析で用いられる辞書をそのまま活用して構わない。なお、ここでは、「京大」という単語が単語辞書に含まれていないものとする。
次に、図4のような連接辞書を用意し、登録する。具体的には、図9におけるステップS104の処理を実行する。この連接辞書についても、単語辞書と同様に一般に形態素解析で用いられる辞書をそのまま活用して構わない。
First, a word dictionary as shown in FIG. 3 is prepared and registered. Specifically, the process of step S103 in FIG. 9 is executed. As this word dictionary, a dictionary generally used in morphological analysis may be used as it is. Here, it is assumed that the word “Kyoto University” is not included in the word dictionary.
Next, a connected dictionary as shown in FIG. 4 is prepared and registered. Specifically, the process of step S104 in FIG. 9 is executed. As for this concatenated dictionary, a dictionary generally used in morphological analysis may be used as it is as in the word dictionary.

次に、図5のような概念定義辞書を用意し、登録する。具体的には、図9におけるステップS105の処理を実行する。概念定義辞書については後述する。
次に、図6のような概念辞書を用意し、登録する。具体的には、図9におけるステップS106の処理を実行する。概念辞書については後述する。
以下では、前述した概念定義辞書および概念辞書について記載する。
Next, a concept definition dictionary as shown in FIG. 5 is prepared and registered. Specifically, the process of step S105 in FIG. 9 is executed. The concept definition dictionary will be described later.
Next, a concept dictionary as shown in FIG. 6 is prepared and registered. Specifically, the process of step S106 in FIG. 9 is executed. The concept dictionary will be described later.
The concept definition dictionary and concept dictionary described above will be described below.

図20は、概念定義辞書および概念辞書、すなわち、図5および図6の一例をイメージ化したものである。なお、図20における丸で囲まれた文字が概念名を示し、図20における四角で囲まれた文字が単語の表層形を示す。
図20の例では、「東芝」という単語は、「企業」という概念に属し、「日立」という単語は、「企業」という概念と「地域」という概念に属していることを示している。また、同様に、「京都大学」という単語は、「教育機関」という概念と「施設」という概念に属し、「京都」という単語は、「地域」という概念に属していることを示している。
FIG. 20 is an image of the concept definition dictionary and the concept dictionary, that is, examples of FIGS. 5 and 6. In FIG. 20, the circled characters indicate the concept name, and the rectangles in FIG. 20 indicate the surface shape of the word.
In the example of FIG. 20, the word “Toshiba” belongs to the concept “company”, and the word “Hitachi” belongs to the concept “company” and the concept “region”. Similarly, the word “Kyoto University” belongs to the concept of “education institution” and the concept of “facility”, and the word “Kyoto” belongs to the concept of “region”.

これらの概念定義辞書および概念辞書は、ユーザ自ら手作業にて構築してもよいし、非特許文献8および非特許文献9に提示されているWordNet、あるいは非特許文献10に提示されているEDRといった一般に入手可能な辞書を用いても構わない。または、特許文献3にて提示されている方式を用いて構築しても構わない。   These concept definition dictionaries and concept dictionaries may be constructed manually by the user, WordNet presented in Non-Patent Literature 8 and Non-Patent Literature 9, or EDR presented in Non-Patent Literature 10. A generally available dictionary such as the above may be used. Alternatively, it may be constructed using the method presented in Patent Document 3.

前述の通りに概念定義辞書および概念辞書が構築されているものとして、「京大」という単語を登録したい場合について説明する。
まず、図6のような概念辞書に「京大」という単語を追加する。その後、「京大」という単語がどのような意味を持つのかを考慮し、図5のような概念定義辞書データ構造を俯瞰し、該当するものを「京大」という単語と紐付ける。ここでは、「京大」という単語は、「教育機関」という概念と「施設」という概念に属しているものとする。また、図5より、「教育機関」という概念の概念IDは「120」、「施設」という概念の概念IDは「520」であることがわかる。そのため、概念辞書に「京大」という単語と「120」という概念IDを紐付け、さらに、「京大」という単語と「520」という概念IDを紐付ければよい。
なお、図20で示した状態に、「京大」という単語を紐付けした結果をイメージ化したのが、図21である。
Assuming that the concept definition dictionary and the concept dictionary are constructed as described above, a case where the word “Kyoto University” is to be registered will be described.
First, the word “Kyoto University” is added to the concept dictionary as shown in FIG. Then, considering what the meaning of the word “Kyoto University” has, the concept definition dictionary data structure as shown in FIG. 5 is looked down, and the corresponding one is linked to the word “Kyoto University”. Here, it is assumed that the word “Kyoto University” belongs to the concept of “education institution” and the concept of “facility”. 5 that the concept ID of the concept “education institution” is “120” and the concept ID of the concept “facility” is “520”. Therefore, the word “Kyoto University” and the concept ID “120” may be linked to the concept dictionary, and the word “Kyoto University” and the concept ID “520” may be linked.
FIG. 21 is an image of the result of linking the word “Kyoto University” to the state shown in FIG.

図21で示す通り、ある単語とその意味を表現する概念をマッピングすることは比較的容易であるといえる。
また、ここでは概念定義辞書に定義を追加する処理については記載していないが、ここで新たな概念を定義しても構わない。
なお、ユーザにとってこれらの辞書登録を利便化するために、専用の画面を用意することも容易に実現できる。なお、図22に登録画面の一例を示す。
これらの定義を行ない、概念定義辞書および概念辞書の登録を行なった後、実際の辞書構築処理を行なう。具体的には、図9におけるステップS107の処理を行なう。
As shown in FIG. 21, it can be said that mapping a certain word and a concept expressing its meaning is relatively easy.
Further, although the process for adding a definition to the concept definition dictionary is not described here, a new concept may be defined here.
In order to make it easier for the user to register these dictionaries, it is possible to easily prepare a dedicated screen. FIG. 22 shows an example of a registration screen.
After these definitions are made and the concept definition dictionary and the concept dictionary are registered, an actual dictionary construction process is performed. Specifically, the process of step S107 in FIG. 9 is performed.

実際には、ステップS107の内部処理である図10のステップS10704にて辞書構築に必要となるモデルの更新が行なわれる。具体的には、「京大」という単語は元々の単語辞書に含まれていないため、図10のステップS10704の内部処理である図11におけるステップS1070410にて未処理単語モデル内に格納されることになる。この未処理単語モデルの一例が図14になる。図14に示す通り、このモデル内で「京大」という単語と概念IDが紐付けられた形で格納されている。   Actually, the model necessary for dictionary construction is updated in step S10704 of FIG. 10 which is an internal process of step S107. Specifically, since the word “Kyoto University” is not included in the original word dictionary, it is stored in the unprocessed word model in step S1070410 in FIG. 11, which is an internal process in step S10704 in FIG. become. An example of this unprocessed word model is shown in FIG. As shown in FIG. 14, the word “Kyoto University” and the concept ID are stored in this model in a linked form.

その後、ステップS107の内部処理である図10のステップS10707にて実際の辞書構築が行なわれる。ここで、「京大」という単語は、未処理単語モデル内に格納されているため、図10のステップS10707の内部処理である図15のステップS107073にて処理が行なわれることになる。
ここで、図14に示す通り、「京大」という単語は、「120」と「520」という概念IDと紐付けられているとする。
Thereafter, actual dictionary construction is performed in step S10707 of FIG. 10 which is internal processing of step S107. Here, since the word “Kyoto University” is stored in the unprocessed word model, the process is performed in step S107073 in FIG. 15 which is an internal process in step S10707 in FIG.
Here, as shown in FIG. 14, it is assumed that the word “Kyoto University” is associated with the concept IDs “120” and “520”.

この場合、まず、図15のステップS107073の内部処理である図18のステップS10707305にて、概念生起コスト辞書D150を走査し、概念IDが「120」であるデータを取得する。図7より、概念IDが120であるデータは、左文脈IDが「011」、右文脈IDが「011」、生起コストが「1000」であったとする。   In this case, first, in step S10707305 in FIG. 18 which is internal processing in step S107073 in FIG. 15, the concept occurrence cost dictionary D150 is scanned, and data with the concept ID “120” is acquired. From FIG. 7, it is assumed that the data whose concept ID is 120 has a left context ID of “011”, a right context ID of “011”, and an occurrence cost of “1000”.

その後、図18のステップS10707306にて、「京大」の生起コストを算出する。前述したように、同じ概念であれば、生起コストについてある程度同じ値になると考えることは妥当であると考えるため、その単語が所属する概念の生起コストに準じた値を設定すればよい。なお、ここでは、前述した「数式1」を用いるものとし、「数式1」内の重みα=4とした場合で計算する。すると、数式1より、1000−{4×2^(1.3)}=990.150・・・≒990 という数値が得られるので、この990という数値を、左文脈IDが「011」、右文脈IDが「011」である「京大」の生起コストとする。
同様にして、概念IDが「520」であるデータを取得し、左文脈IDが「100」、右文脈IDが「100」である「京大」の生起コストを算出する。
これらにより、「京大」という生起コストが得られたため、そのデータを単語辞書格納領域D110に追加更新する。
Thereafter, the occurrence cost of “Kyoto University” is calculated in step S10707306 in FIG. As described above, since it is appropriate to consider that the occurrence cost is the same value to some extent for the same concept, a value corresponding to the occurrence cost of the concept to which the word belongs may be set. Here, it is assumed that the above-described “Formula 1” is used, and the calculation is performed when the weight α in the “Formula 1” is 4. Then, the numerical value of 1000− {4 × 2 ^ (1.3)} = 990.150... ≈990 is obtained from Equation 1. Therefore, the numerical value of 990 is set to the left context ID “011”, the right The occurrence cost of “Kyoto University” with the context ID “011” is assumed.
Similarly, data with the concept ID “520” is acquired, and the occurrence cost of “Kyoto University” with the left context ID “100” and the right context ID “100” is calculated.
As a result, the occurrence cost of “Kyoto University” is obtained, and the data is additionally updated in the word dictionary storage area D110.

その後、図15のステップS107074の内部処理である図19のステップS10707406およびステップS10707407にて、左文脈IDが「100」、右文脈IDが「100」である連接コストの計算が行なわれ、自動的に連接コスト値が更新される。
この手順により、ユーザによる試行錯誤による設定ではなく、ユーザは概念辞書に「京大」という単語とその意味する概念をマッピングするだけで、単語辞書に「京大」という単語を自動的に追加し、かつ、形態素解析実行に必要な生起コストおよび連接コストの妥当な値を自動的に算出して設定することができる。
After that, in steps S10707406 and S10707407 in FIG. 19, which is an internal process in step S107074 in FIG. 15, the concatenated cost with the left context ID “100” and the right context ID “100” is calculated and automatically The concatenated cost value is updated.
With this procedure, instead of setting by trial and error by the user, the user simply maps the word “Kyodai” and its meaning to the concept dictionary, and automatically adds the word “Kyodai” to the word dictionary. In addition, it is possible to automatically calculate and set appropriate values of the occurrence cost and the connection cost necessary for executing the morphological analysis.

なお、ここでは、概念辞書を新規登録することを前提に、辞書構築を実行するまでを例示したが、既にある概念辞書に新たな単語を追加設定したい場合でも、記憶装置120の概念辞書格納領域D140に現状のデータが存在するため、必要な情報をここで適宜更新し、該当処理を実行すればよい。
以上が、第一の実施例における情報分析辞書構築処理についての説明である。
In this example, the process up to execution of dictionary construction is illustrated on the assumption that a new concept dictionary is registered, but the concept dictionary storage area of the storage device 120 can be used even when a new word is additionally set in an existing concept dictionary. Since the current data exists in D140, the necessary information may be appropriately updated here to execute the corresponding process.
The above is the description of the information analysis dictionary construction process in the first embodiment.

<情報分析サーバ102>
次に、本実施形態における情報分析サーバ102について説明する。
図23は、本実施形態における情報分析サーバ102の構成を示すブロック図である。
情報分析サーバ102は、前述した情報分析辞書構築サブシステム101と比べると格納されているプログラムが異なること以外は同じ構成を有する。このため、前述した情報分析辞書構築サブシステム101と同じ構成には同じ符号を付し、その説明は省略する。
すなわち、情報分析サーバ102は、メモリ110、記憶装置120、CPU(中央演算装置)130、出力装置140、入力装置150および通信インタフェース160を備え、これらの各構成がバス170によって接続される一般的な構成のコンピュータである。
<Information analysis server 102>
Next, the information analysis server 102 in this embodiment will be described.
FIG. 23 is a block diagram showing the configuration of the information analysis server 102 in this embodiment.
The information analysis server 102 has the same configuration as the information analysis dictionary construction subsystem 101 described above except that the stored program is different. For this reason, the same code | symbol is attached | subjected to the same structure as the information analysis dictionary construction subsystem 101 mentioned above, and the description is abbreviate | omitted.
That is, the information analysis server 102 includes a memory 110, a storage device 120, a CPU (Central Processing Unit) 130, an output device 140, an input device 150, and a communication interface 160. It is a computer with a simple configuration.

メモリ110は、CPU130によって実行されるプログラムを格納する。具体的には、システム制御プログラムP10および情報分析プログラムP12がメモリ110に格納される。   The memory 110 stores a program executed by the CPU 130. Specifically, the system control program P10 and the information analysis program P12 are stored in the memory 110.

情報分析プログラムP12は、情報分析クライアント103あるいは104から送信された分析要求に基づいて、情報を分析するプログラムであり、サブプログラムとして、辞書ローディングプログラムP121、分析条件式解析プログラムP122、形態素解析プログラムP123、未知語リスト取得プログラムP124を含む。   The information analysis program P12 is a program for analyzing information based on the analysis request transmitted from the information analysis client 103 or 104, and includes a dictionary loading program P121, an analysis conditional expression analysis program P122, and a morpheme analysis program P123 as subprograms. And an unknown word list acquisition program P124.

辞書ローディングプログラムP121は、情報分析辞書構築サブシステム101にて構築した各種辞書を取得し、記憶装置120に格納する(図24のステップS203およびステップS204)。
分析条件式解析プログラムP122は、ユーザによって入力された分析条件式を解析する(図24のステップS205)。
形態素解析プログラムP123は、形態素解析を実行するプログラムである(図24のステップS206)。
未知語リスト取得プログラムP124は、記憶装置120内に存在する未知語リストD200の内容を要求元に転送する(図24のステップS210およびステップS211)。
The dictionary loading program P121 acquires the various dictionaries constructed by the information analysis dictionary construction subsystem 101 and stores them in the storage device 120 (step S203 and step S204 in FIG. 24).
The analysis conditional expression analysis program P122 analyzes the analysis conditional expression input by the user (step S205 in FIG. 24).
The morpheme analysis program P123 is a program that executes morpheme analysis (step S206 in FIG. 24).
The unknown word list acquisition program P124 transfers the contents of the unknown word list D200 existing in the storage device 120 to the request source (step S210 and step S211 in FIG. 24).

記憶装置120には、各種プログラムD100が格納される。この各種プログラムD100には、システム制御プログラムP10および情報分析プログラムP12が含まれており、CPU130によって実行される際にメモリ110にロードされる。
また、記憶装置120には、単語辞書D110および連接辞書D120が含まれる。単語辞書D110および連接辞書D120は、情報分析辞書構築サブシステム101にて構築された辞書データであり、辞書ローディングプログラムP121によって情報分析辞書構築サブシステム101からロードされ、記憶装置120に格納される。
The storage device 120 stores various programs D100. The various programs D100 include a system control program P10 and an information analysis program P12, which are loaded into the memory 110 when executed by the CPU 130.
Further, the storage device 120 includes a word dictionary D110 and a concatenation dictionary D120. The word dictionary D110 and the connection dictionary D120 are dictionary data constructed by the information analysis dictionary construction subsystem 101, loaded from the information analysis dictionary construction subsystem 101 by the dictionary loading program P121, and stored in the storage device 120.

さらに、記憶装置120には、未知語リストD200が含まれる。未知語リストD200は、形態素解析プログラムP123によって分析された結果、十分に解析できなかった単語(以下、未知語という)のリストであり、未知語リスト取得プログラムP124によって、要求元に転送される。
情報分析サーバ102は、情報分析プログラムP12を実行することによって、情報分析クライアント103もしくは104から送信された分析要求に基づいて、データを分析し、分析結果を要求元の情報分析クライアントに返信する。次にこの処理の詳細を図面を用いて説明する。
Further, the storage device 120 includes an unknown word list D200. The unknown word list D200 is a list of words (hereinafter referred to as unknown words) that could not be sufficiently analyzed as a result of analysis by the morphological analysis program P123, and is transferred to the request source by the unknown word list acquisition program P124.
By executing the information analysis program P12, the information analysis server 102 analyzes data based on the analysis request transmitted from the information analysis client 103 or 104, and returns the analysis result to the requesting information analysis client. Next, details of this processing will be described with reference to the drawings.

図24は、本発明の第一の実施例における情報分析サーバ102によって実行される処理のフローチャートである。
まず、情報分析サーバ102は、要求元からリクエストを受信すると(ステップS201)、受信したリクエストを解析する(ステップS202)。
受信したリクエストが辞書ローディング要求であった場合、辞書ローディングプログラムP121を実行し、情報分析辞書構築サブシステム101にて格納されている単語辞書と連接辞書を取得するため、情報分析辞書構築サブシステム101に対して情報転送コマンドを発行し(ステップS203)、情報分析辞書構築サブシステム101から返送されてきた各種辞書データを記憶装置120の単語辞書格納領域D110および連接辞書格納領域D120に格納する。
FIG. 24 is a flowchart of processing executed by the information analysis server 102 according to the first embodiment of this invention.
First, when the information analysis server 102 receives a request from the request source (step S201), the information analysis server 102 analyzes the received request (step S202).
If the received request is a dictionary loading request, the dictionary loading program P121 is executed to obtain the word dictionary and the concatenated dictionary stored in the information analysis dictionary construction subsystem 101. An information transfer command is issued (step S203), and various dictionary data returned from the information analysis dictionary construction subsystem 101 are stored in the word dictionary storage area D110 and the connected dictionary storage area D120 of the storage device 120.

一方、受信したリクエストが未知語リスト転送要求であった場合、記憶装置120内に存在する未知語リストD200を取得し(ステップS210)、本要求を行なった要求元に取得した未知語リスト情報を転送する(ステップS211)。
一方、受信したリクエストがサーバ停止要求であった場合、情報分析サーバ102の動作を停止する。
一方、受信したリクエストが分析要求であった場合、分析条件式解析プログラムP122を実行し、分析条件式を解析する(ステップS205)。具体的には、分析条件式からユーザが入力した解析対象テキストを取得する。
On the other hand, if the received request is an unknown word list transfer request, the unknown word list D200 existing in the storage device 120 is acquired (step S210), and the unknown word list information acquired by the request source that made this request is obtained. Transfer (step S211).
On the other hand, when the received request is a server stop request, the operation of the information analysis server 102 is stopped.
On the other hand, if the received request is an analysis request, the analysis conditional expression analysis program P122 is executed to analyze the analysis conditional expression (step S205). Specifically, the analysis target text input by the user is acquired from the analysis conditional expression.

次に、形態素解析プログラムP123を実行し、分析条件式に含まれる解析対象テキストを元に、記憶装置120に存在する単語辞書D110および連接辞書D120を使用して形態素解析処理を実行する(ステップS206)。なお、形態素解析処理の詳細については公知であるため、省略する。また、記憶装置120に存在する単語辞書D110および連接辞書D120は、形態素解析を実行するための辞書形態となっているため、形態素解析処理自体に特別な方式は必要ない。   Next, the morpheme analysis program P123 is executed, and the morpheme analysis process is executed using the word dictionary D110 and the concatenation dictionary D120 existing in the storage device 120 based on the analysis target text included in the analysis conditional expression (step S206). ). Note that details of the morphological analysis process are well known and are omitted. Further, the word dictionary D110 and the concatenated dictionary D120 existing in the storage device 120 are in the form of a dictionary for executing morphological analysis, so that no special method is required for the morphological analysis processing itself.

ステップS206による形態素解析処理の実行後、解析結果として存在する形態素集合に未知語が含まれているか否かを確認し(ステップS207)、未知語が存在していなければ、ステップS209に進む。
一方、解析結果の形態素集合に未知語が存在していれば、解析結果に含まれる未知語の集合を未知語リストD200に登録する(ステップS208)。
その後、ステップS206にて得られた解析結果を要求元に返信する(ステップS209)。
After execution of the morpheme analysis process in step S206, it is confirmed whether or not an unknown word is included in the morpheme set existing as an analysis result (step S207). If the unknown word does not exist, the process proceeds to step S209.
On the other hand, if an unknown word exists in the analysis result morpheme set, the unknown word set included in the analysis result is registered in the unknown word list D200 (step S208).
Thereafter, the analysis result obtained in step S206 is returned to the request source (step S209).

図25は、未知語リストD200の一例を示す図である。
図25に示すように、形態素解析を行った結果、未知語と判断された単語、すなわち、単語辞書に登録されていない語彙のリストが格納されている。なお、図25では、未知語の単語表記のみを格納することとしているが、辞書メンテナンスを行う際の参考情報のために、出現回数や、その未知語が出現した時における前後の文字列など、その他の項目を合わせて格納するようにしてもよい。
この未知語リストD200が存在することにより、未知語リスト内の未知語は辞書に存在しない単語であることが明確にわかるため、辞書メンテナンスを行う際の指標を得ることができる。このことにより、その単語が辞書内に存在するかを確認し、存在していなければ、新規に単語を登録するという手順を、大幅に軽減することができる。
以上が、本発明の第1の実施例における情報分析サーバ102についての説明である。
FIG. 25 is a diagram illustrating an example of the unknown word list D200.
As shown in FIG. 25, a list of words determined as unknown words as a result of the morphological analysis, that is, vocabularies not registered in the word dictionary is stored. In FIG. 25, only the word notation of the unknown word is stored, but for reference information when performing dictionary maintenance, the number of appearances, the character strings before and after the unknown word appear, etc. Other items may be stored together.
Since the unknown word list D200 exists, it is clearly understood that the unknown word in the unknown word list is a word that does not exist in the dictionary. Therefore, an index for performing dictionary maintenance can be obtained. As a result, it is possible to greatly reduce the procedure of checking whether the word exists in the dictionary and registering a new word if it does not exist.
This completes the explanation of the information analysis server 102 in the first embodiment of the present invention.

<情報分析クライアント103および104>
次に、本実施形態における情報分析クライアント103,104について説明する。
図26は、本実施例における情報分析クライアント103あるいは104の構成を示すブロック図である。
情報分析クライアント103あるいは104は、前述した情報分析辞書構築サブシステム101(図2)と比べ、格納されているプログラムが異なること以外は同じ構成を有する。このため、前述した情報分析辞書構築サブシステム101と同じ構成には同じ符号を付し、その説明は省略する。
すなわち、情報分析クライアント103あるいは104は、メモリ110、記憶装置120、CPU(中央演算装置)130、出力装置140、入力装置150および通信インタフェース160を備え、これらの各構成がバス170によって接続されるコンピュータである。
メモリ110は、CPU130によって実行されるプログラムを格納する。具体的には、システム制御プログラムP10および分析クライアント制御プログラムP13がメモリ110に格納される。
<Information analysis clients 103 and 104>
Next, the information analysis clients 103 and 104 in this embodiment will be described.
FIG. 26 is a block diagram showing the configuration of the information analysis client 103 or 104 in this embodiment.
The information analysis client 103 or 104 has the same configuration as the information analysis dictionary construction subsystem 101 (FIG. 2) described above except that the stored program is different. For this reason, the same code | symbol is attached | subjected to the same structure as the information analysis dictionary construction subsystem 101 mentioned above, and the description is abbreviate | omitted.
That is, the information analysis client 103 or 104 includes a memory 110, a storage device 120, a CPU (Central Processing Unit) 130, an output device 140, an input device 150, and a communication interface 160, and these components are connected by a bus 170. It is a computer.
The memory 110 stores a program executed by the CPU 130. Specifically, the system control program P10 and the analysis client control program P13 are stored in the memory 110.

分析クライアント制御プログラムP13は、情報分析サーバ102へ送信する分析要求を生成するプログラムであり、サブプログラムとして、分析条件入力プログラムP131および分析結果表示プログラムP132を含む。
分析条件入力プログラムP131は、ユーザからの分析条件の入力を受け付け、分析リクエストを情報分析サーバ102に送信する。分析結果表示プログラムP132は、ユーザからの指示に従って分析結果を表示する。
記憶装置120には、各種プログラムD100が格納される。この各種プログラムD100には、システム制御プログラムP10および分析クライアント制御プログラムP13が含まれており、CPU130によって実行される際にメモリ110にロードされる。
The analysis client control program P13 is a program that generates an analysis request to be transmitted to the information analysis server 102, and includes an analysis condition input program P131 and an analysis result display program P132 as subprograms.
The analysis condition input program P131 accepts input of analysis conditions from the user and transmits an analysis request to the information analysis server 102. The analysis result display program P132 displays the analysis result in accordance with an instruction from the user.
The storage device 120 stores various programs D100. The various programs D100 include a system control program P10 and an analysis client control program P13, which are loaded into the memory 110 when executed by the CPU 130.

また、記憶装置120には、分析結果データD300が格納される。分析結果データD300は、情報分析サーバ102から転送された分析結果が一時的に格納されるキャッシュである。
情報分析クライアント103あるいは104は、分析クライアント制御プログラムP13を実行することによって、情報分析サーバ102に送信する分析要求を生成し、情報分析サーバ102によって行われた分析の結果を表示する。次に、この処理の詳細について図面を用いて説明する。
The storage device 120 stores analysis result data D300. The analysis result data D300 is a cache in which the analysis result transferred from the information analysis server 102 is temporarily stored.
The information analysis client 103 or 104 generates an analysis request to be transmitted to the information analysis server 102 by executing the analysis client control program P13, and displays the result of the analysis performed by the information analysis server 102. Next, details of this processing will be described with reference to the drawings.

図27は、本発明の第一の実施例における情報分析クライアント103あるいは104によって実行される処理のフローチャートである。
分析クライアント制御プログラムP13が起動されると、まず、分析条件入力用画面を表示して、指示(コマンド)の入力を促す(ステップS301)。
その後、コマンドが入力されると(ステップS302)、入力されたコマンドを解析する(ステップS303)。
解析したコマンドがクライアント停止コマンドである場合、分析クライアント制御プログラムP13を終了する。
FIG. 27 is a flowchart of processing executed by the information analysis client 103 or 104 according to the first embodiment of this invention.
When the analysis client control program P13 is started, first, an analysis condition input screen is displayed to prompt input of an instruction (command) (step S301).
Thereafter, when a command is input (step S302), the input command is analyzed (step S303).
If the analyzed command is a client stop command, the analysis client control program P13 is terminated.

一方、解析したコマンドが分析コマンドである場合、分析条件入力プログラムP131を実行し、入力されたデータに基づいて分析リクエストを生成し(ステップS304)、生成された分析リクエストを情報分析サーバ102に送信する(ステップS305)。
その後、情報分析サーバ102から分析結果を受信すると、受信した分析結果を記憶装置120の分析結果データD300に格納する(ステップS306)。なお、分析結果は、分析対象となるテキストから得られた単語情報のリストが含まれ、図24におけるステップS209にて情報分析サーバ102から送信される。
On the other hand, if the analyzed command is an analysis command, the analysis condition input program P131 is executed, an analysis request is generated based on the input data (step S304), and the generated analysis request is transmitted to the information analysis server 102. (Step S305).
Thereafter, when an analysis result is received from the information analysis server 102, the received analysis result is stored in the analysis result data D300 of the storage device 120 (step S306). The analysis result includes a list of word information obtained from the text to be analyzed, and is transmitted from the information analysis server 102 in step S209 in FIG.

その後、分析結果表示プログラムP132を起動し、分析結果表示画面を表示する(ステップS307)。この際、次のコマンドを入力できる画面も合わせて表示する。その後、ステップS302に戻り、ユーザからのコマンド入力を受信する。   Thereafter, the analysis result display program P132 is activated to display an analysis result display screen (step S307). At this time, a screen for inputting the next command is also displayed. Then, it returns to step S302 and receives a command input from the user.

以上説明したように、本実施形態では、形態素解析を行なうための辞書を構築する際に、その単語の意味定義を考慮する仕組みを提供している。このため、辞書に単語を追加したい場合でも、辞書をメンテナンスするユーザは、追加したい単語とその概念をマッピングするだけでよく、辞書構築においてコスト高となっているユーザによる試行錯誤による設定を行なう必要をなくすことができるため、辞書のメンテナンスコストを低減することができる。
さらに、本実施形態では、実際に解析を行った結果、十分に解析できなかった単語(未知語)を蓄積することができるため、ユーザはそれを用いて次に辞書登録すべき単語を判断することができるようになる。つまり、未知語を取得することと単語の新規登録が容易になることにより、辞書を積極的にメンテナンスすることが可能になり、結果的に解析精度を向上させることが可能になる。
As described above, this embodiment provides a mechanism that takes into account the semantic definition of a word when a dictionary for morphological analysis is constructed. For this reason, even if a word is to be added to the dictionary, the user who maintains the dictionary only needs to map the word to be added and the concept thereof, and it is necessary to make settings by trial and error by a user who is expensive in constructing the dictionary. Therefore, the maintenance cost of the dictionary can be reduced.
Furthermore, in this embodiment, since words (unknown words) that could not be sufficiently analyzed as a result of actual analysis can be accumulated, the user determines the next word to be registered in the dictionary using the word. Will be able to. That is, it becomes possible to actively maintain the dictionary by acquiring unknown words and registering new words easily, and as a result, it is possible to improve analysis accuracy.

<第2の実施形>
次に本発明の第2の実施形態について図面を用いて説明する。この第2の実施形態は、システムの構成については前記第一の実施例と同一であるが、情報分析辞書構築サブシステム101の処理において、概念生起コスト辞書の生成方法が異なり、その結果、単語辞書における生起コスト値が異なってくる。
<Second embodiment>
Next, a second embodiment of the present invention will be described with reference to the drawings. In the second embodiment, the system configuration is the same as that of the first embodiment, but the method of generating the concept occurrence cost dictionary is different in the processing of the information analysis dictionary construction subsystem 101. As a result, the word The starting cost value in the dictionary will be different.

第1の実施形態においては、概念生起コスト辞書を生成するため、ユーザが設定した単語と概念とを紐付ける情報のみを使って概念の生起コストを算出するという方式を取っている(図9のステップS107およびその内部処理である図10のステップS10704)。しかし、概念に紐付いた単語の数が少ない場合においては、その数少ない単語による傾向がそのまま概念の生起コストとして算出されてしまうことになる。また、そもそも単語と紐付いていない概念の生起コストや例え単語と紐付いていたとしても単語の生起コストが存在しないものしか紐付けられていない概念の生起コストは算出できない。こういったシステムにおいては、時間の経過と共に、元々は単語と紐付けていない概念であっても紐付けを行いたくなることが想定され、第1の実施形態だけでは十分な概念生起コストが推定できず、結果として単語の生起コストの推定に不十分な状態となることが考えられる。   In the first embodiment, in order to generate a concept occurrence cost dictionary, a concept occurrence cost is calculated using only information that links a word set by a user and a concept (FIG. 9). Step S107 and its internal processing, step S10704 in FIG. 10). However, when the number of words associated with the concept is small, the tendency due to the small number of words is calculated as it is as the cost of occurrence of the concept. In addition, it is not possible to calculate the occurrence cost of a concept that is not associated with a word or a concept that is associated with only a word that does not have a word occurrence cost even if it is associated with a word. In such a system, with the passage of time, it is assumed that it would be desirable to link even a concept that was not originally linked to a word, and a sufficient concept generation cost is estimated only by the first embodiment. As a result, it may be inadequate for estimating the cost of occurrence of words.

この第2の実施形態では、第1の実施形態における概念コスト分析プログラムP111に加え、概念間の関係性に着目し、その関係性を元に調整した概念の生起コストを算出することにより、単語の生起コスト推定精度を向上させるという点に特徴がある。
以下、本実施形態における情報分析辞書構築サブシステム101の詳細について説明する。
In the second embodiment, in addition to the concept cost analysis program P111 in the first embodiment, attention is paid to the relationship between the concepts, and the occurrence cost of the concept adjusted based on the relationship is calculated. It is characterized in that the occurrence cost estimation accuracy is improved.
Details of the information analysis dictionary construction subsystem 101 in this embodiment will be described below.

<情報分析辞書構築サブシステム101>
なお、第1の実施形態における情報分析辞書構築サブシステム101(図2)と同じ構成には同じ符号を付し、その説明は省略する。
図28は、本実施形態における情報分析辞書構築サブシステム101のシステム構成を示す図である。
図28に示す情報分析辞書構築サブシステム101は、そのハードウェア構成に関しては、図2に示す第1の実施形態の場合と変わらない。ただし、メモリ110中には、第1の実施形態において保持するプログラム群に加えて、概念関係調整プログラムP112を保持する。また記憶装置120には、第1の実施形態において確保する領域群に加えて、概念関係定義辞書D170が確保される。
概念関係調整プログラムP112は、概念間の関係性を元に概念における生起コストを調整し、単語の生起コストを更新するプログラムである(図29のステップS111)。
<Information analysis dictionary construction subsystem 101>
In addition, the same code | symbol is attached | subjected to the same structure as the information analysis dictionary construction subsystem 101 (FIG. 2) in 1st Embodiment, and the description is abbreviate | omitted.
FIG. 28 is a diagram showing a system configuration of the information analysis dictionary construction subsystem 101 in the present embodiment.
The information analysis dictionary construction subsystem 101 shown in FIG. 28 has the same hardware configuration as that of the first embodiment shown in FIG. However, in the memory 110, in addition to the program group held in the first embodiment, the conceptual relationship adjustment program P112 is held. Further, in the storage device 120, a concept relation definition dictionary D170 is secured in addition to the area group secured in the first embodiment.
The concept relationship adjustment program P112 is a program that adjusts the occurrence cost in the concept based on the relationship between the concepts and updates the occurrence cost of the word (step S111 in FIG. 29).

概念関係定義辞書D170は、上下関係などといった概念と概念の関係性を定義するための情報である。概念というのは、種別という言葉にほぼ同意と考えると、例えば、その上位にあたる概念が存在したり、その部分となる概念が存在したり、あるいは、その反対の意味を持つ概念が存在したりすることが通常と考えられる。概念関係定義辞書D170は、そういった概念間の関係性を定義することに用いる。なお、概念関係定義辞書D170は、図30に示すように、概念を識別するためのID(識別子)のペアとその関係性(役割)とを紐付ける情報を保持する。   The concept relationship definition dictionary D170 is information for defining the relationship between concepts such as vertical relationships. If you think that a concept is almost an agreement with the word type, for example, there is a higher-level concept, a concept that is part of it, or a concept that has the opposite meaning. It is considered normal. The concept relationship definition dictionary D170 is used to define the relationship between such concepts. As shown in FIG. 30, the concept relationship definition dictionary D170 holds information for associating an ID (identifier) pair for identifying a concept with its relationship (role).

なお、図30で示したデータ項目の他に、役割そのものの定義などその他の項目を付加した形としても構わない。また、概念の関係性の構造としては、木構造の他に、二部グラフなどといったネットワークグラフ構造など、どのような形態としても構わない。
さらに、概念関係定義辞書D170は、第1の実施形態における概念定義辞書D130および概念辞書D140と同様、ユーザ自ら手作業にて構築してもよいし、非特許文献8および非特許文献9に提示されているWordNet、あるいは非特許文献10に提示されているEDRといった一般に入手可能な辞書を用いても構わない。または、特許文献3にて提示されている方式を用いて構築しても構わない。
In addition to the data items shown in FIG. 30, other items such as the definition of the role itself may be added. In addition to the tree structure, the conceptual relationship structure may take any form such as a network graph structure such as a bipartite graph.
Further, the conceptual relationship definition dictionary D170 may be manually constructed by the user, as in the conceptual definition dictionary D130 and the conceptual dictionary D140 in the first embodiment, or presented in Non-Patent Document 8 and Non-Patent Document 9. Generally available dictionaries such as WordNet, or EDR presented in Non-Patent Document 10 may be used. Alternatively, it may be constructed using the method presented in Patent Document 3.

図29は、本発明の第2の実施形態における情報分析辞書構築サブシステム101によって実行される処理のフローチャートである。
第1の実施形態における情報分析辞書構築サブシステム101によって実行される処理のフローチャート、すなわち、図9と比較した場合、ステップS110およびステップS111が追加されていること以外は同じ処理内容を有する。このため、前述した情報分析辞書構築サブシステム101と同じ処理内容には同じ符号を付し、その説明は省略する。
FIG. 29 is a flowchart of processing executed by the information analysis dictionary construction subsystem 101 according to the second embodiment of this invention.
When compared with the flowchart of the process executed by the information analysis dictionary construction subsystem 101 in the first embodiment, that is, when compared with FIG. 9, the process contents are the same except that steps S110 and S11 1 are added. For this reason, the same processing contents as those of the information analysis dictionary construction subsystem 101 described above are denoted by the same reference numerals and description thereof is omitted.

まず、ユーザあるいは情報分析サーバ102からのリクエストを受信すると(ステップS101)、受信したリクエストを解析する(ステップS202)。
受信したリクエストが辞書構築コマンドである場合、要求された登録内容に応じて情報を記憶装置120に格納する。具体的には第1の実施形態において説明した内容と同等であるが、第1の実施形態と比較して、概念関係定義辞書登録コマンドに基づいて、記憶装置120に格納される(図29のステップS110)処理が加わる。
First, when a request from the user or the information analysis server 102 is received (step S101), the received request is analyzed (step S202).
If the received request is a dictionary construction command, information is stored in the storage device 120 according to the requested registration content. Specifically, the content is the same as that described in the first embodiment, but is stored in the storage device 120 based on the conceptual relationship definition dictionary registration command as compared to the first embodiment (FIG. 29). Step S110) Processing is added.

また、図9もしくは図29におけるステップS107の終了後に、ステップS111の処理が実行されることになる。すなわち、ステップS107が終了した時点で、図2もしくは図28における単語辞書D110、連接辞書D120、概念定義辞書D130、概念辞書D140、概念生起コスト辞書D150、概念連接コスト辞書D160は一旦構築されているものと考える。
ここで、図29のステップS111の詳細について、図面を用いて説明する。
Further, after step S107 in FIG. 9 or FIG. 29 is completed, the process of step S111 is executed. That is, when step S107 is completed, the word dictionary D110, the concatenation dictionary D120, the concept definition dictionary D130, the concept dictionary D140, the concept occurrence cost dictionary D150, and the concept concatenation cost dictionary D160 in FIG. 2 or 28 are once constructed. Think of things.
Here, details of step S111 in FIG. 29 will be described with reference to the drawings.

図31は、図29のステップS111、すなわち、概念関係調整プログラムP112において実行される処理のフローチャートである。
まず、概念関係調整プログラムP112は、まず、記憶装置120に存在する概念関係定義辞書D170を読み出し、概念関係定義の全リストをワークエリアに格納する(ステップS11101)。さらに、記憶装置120から概念生起コスト辞書D150上の全データを読み出し、概念生起コストモデルとしてワークエリアに格納する。また、同様に、記憶装置120から概念連接コスト辞書D160上の全データを読み出し、概念連接コストモデルとしてワークエリアに格納する。(ステップS11102)。
FIG. 31 is a flowchart of processing executed in step S111 of FIG. 29, that is, the conceptual relationship adjustment program P112.
First, the conceptual relationship adjustment program P112 first reads the conceptual relationship definition dictionary D170 existing in the storage device 120, and stores the entire list of conceptual relationship definitions in the work area (step S11101). Further, all data on the concept occurrence cost dictionary D150 is read from the storage device 120 and stored in the work area as a concept occurrence cost model. Similarly, all data on the concept connection cost dictionary D160 is read from the storage device 120 and stored in the work area as a concept connection cost model. (Step S11102).

なお、概念生起コストモデルは、第1の実施形態で説明したモデルであり、第1の実施形態における図12と同様である。また、概念連接コストモデルは、第1の実施形態で説明したモデルであり、第1の実施形態における図13と同様である。その後、ループを制御するパラメータaとパラメータbについて初期値“1”に設定する(ステップS11103)。
そして、ワークエリアに格納した概念生起コストモデルからa番目の概念生起コスト情報を取得する(ステップS11104)。
The concept generation cost model is the model described in the first embodiment, and is the same as that in FIG. 12 in the first embodiment. The conceptual connection cost model is the model described in the first embodiment, and is the same as FIG. 13 in the first embodiment. Thereafter, the initial value “1” is set for the parameters a and b for controlling the loop (step S11103).
Then, the a-th concept occurrence cost information is acquired from the concept occurrence cost model stored in the work area (step S11104).

次に、ワークエリアに格納した概念関係定義の全リストから、b番目の概念定義情報を取得する(ステップS11105)。この概念関係定義は、図30で示す通り、概念を識別するIDが2つ定義されており、さらに、これらの関係性(役割)を示す情報が格納されている。
a番目の概念生起コスト情報とb番目の概念定義情報を元に、a番目の概念生起コスト情報に存在する概念IDとb番目の概念定義情報に存在するいずれかの概念IDが合致するか否かを判定し(ステップS11106)、合致する場合は、ステップS11107およびステップS11108からなる処理に進む。
Next, b-th concept definition information is acquired from the entire list of concept relationship definitions stored in the work area (step S11105). In this conceptual relationship definition, as shown in FIG. 30, two IDs for identifying the concepts are defined, and information indicating these relationships (roles) is stored.
Based on the a-th concept occurrence cost information and the b-th concept definition information, whether or not the concept ID existing in the a-th concept occurrence cost information matches any concept ID existing in the b-th concept definition information Is determined (step S11106), and if they match, the process proceeds to step S11107 and step S11108.

一方、ステップS11106の判定において、合致しないとした場合は、次(b+1番目)の概念定義情報が存在するか否かを判定する(ステップS11109)。もし、次の概念情報が存在する場合は、パラメータbに“1”を加算し、ステップS11105に戻る。もし、次の概念定義情報が存在しない場合は、全ての概念情報を走査したと判断し、パラメータbを初期状態、つまり、“1”に設定し、ステップS11112に進む。
ステップS11107では、b番目の概念定義情報に存在する概念IDのうち、a番目の概念生起コスト情報に存在する概念IDと合致しなかった概念IDと共に、a番目の概念生起コスト情報に存在する左文脈ID、右文脈ID、および生起コストをセットにして、概念生起コストモデルに追記する。
On the other hand, if it is determined in step S11106 that they do not match, it is determined whether or not the next (b + 1) th concept definition information exists (step S11109). If the next conceptual information exists, “1” is added to the parameter b, and the process returns to step S11105. If the next concept definition information does not exist, it is determined that all concept information has been scanned, the parameter b is set to the initial state, that is, “1”, and the process proceeds to step S11112.
In step S11107, among the concept IDs present in the b-th concept definition information, the left existing in the a-th concept occurrence cost information together with the concept ID that does not match the concept ID present in the a-th concept occurrence cost information. The context ID, right context ID, and occurrence cost are set and added to the concept occurrence cost model.

次に、ステップS11108では、a番目の概念生起コスト情報に存在する左文脈IDと右文脈IDをキーとしてワークエリア上に存在する概念連接コストモデルを走査し、該当する連接コスト値を取得する。取得した連接コスト値とa番目の概念生起コスト情報に存在する左文脈IDと右文脈IDをセットにして、概念連接コストモデルに追記する。
ステップS11108の処理の後、ステップS11111にてパラメータbを初期状態、つまり、“1”に設定し、ステップS11112に進む。
Next, in step S11108, the concept connected cost model existing on the work area is scanned using the left context ID and the right context ID existing in the a-th concept occurrence cost information as keys, and the corresponding connected cost value is acquired. The left context ID and the right context ID existing in the acquired concatenated cost value and the a-th concept occurrence cost information are set and added to the concept concatenated cost model.
After the process of step S11108, the parameter b is set to the initial state, that is, “1” in step S11111, and the process proceeds to step S11112.

ステップS11112では、ワークエリアに格納した概念生起コストモデルに次(a+1番目)の情報が存在するか否かを確認する。もし、a+1番目の概念生起コスト情報が存在する場合は、パラメータaに“1”を加算し(ステップS11113)、ステップS11104に戻る。   In step S11112, it is confirmed whether the next (a + 1) th information exists in the concept occurrence cost model stored in the work area. If the (a + 1) th concept occurrence cost information exists, “1” is added to the parameter a (step S11113), and the process returns to step S11104.

一方、a+1番目の概念生起コスト情報が存在しない場合は、全ての概念生起コスト情報について走査したと考え、生成した概念生起コストモデルや概念連接コストモデルなどから、各種辞書を生成する(ステップS11114)。なお、このステップS11114は、第1の実施形態における図10のステップS10704と全く同じ処理となる。そのため、ステップS11114の詳細については省略する。
ステップS11114の処理を終えると、全ての処理が終了したと考え、概念関係調整プログラムP112、すなわち、ステップS111の処理を終了する。
On the other hand, if the (a + 1) th concept occurrence cost information does not exist, it is considered that all concept occurrence cost information has been scanned, and various dictionaries are generated from the generated concept occurrence cost model, concept concatenation cost model, and the like (step S11114). . Note that step S11114 is exactly the same as step S10704 in FIG. 10 in the first embodiment. Therefore, details of step S11114 are omitted.
When the process of step S11114 is finished, it is considered that all the processes are finished, and the conceptual relationship adjustment program P112, that is, the process of step S111 is finished.

<情報分析辞書構築の具体例>
以下では、第2の実施形態における情報分析辞書構築処理について、具体的な例を用いて説明する。
ここで、企業内における部門名の略称を辞書に登録する場合を考える。部門名は企業独自に命名されるものであり、かつ、部門名の略称については、その企業の慣習に基づいて命名されることになるため、一般的な辞書に存在することはあり得ない。また、部門名の略称では、漢字とカタカナなどが混在していることも多い。
<Specific example of information analysis dictionary construction>
Hereinafter, the information analysis dictionary construction process in the second embodiment will be described using a specific example.
Here, consider a case where abbreviations of department names in a company are registered in a dictionary. The department name is uniquely named for the company, and the abbreviation of the department name is based on the custom of the company, so it cannot exist in a general dictionary. Also, in the abbreviations of department names, kanji and katakana are often mixed.

一般的な形態素解析エンジンでは、同一の文字種については、できるだけまとめて認識するという機能が存在するものもある。しかし、部門名の略称表記は複数の文字種が混在することになるため、部門名略称をうまく解析できないという結果になる。
ここでは、ある企業における部門名およびその略称の例として、「生産技術センタ」の略称である「生技セ」と「第一営業本部」の略称である「1営本」を考える。どちらの略称も2種類以上の文字種が含まれている。そのため、これらの単語を登録せずに一般的な形態素解析エンジンで解析した場合、「生技/セ」、「1/営/本」というような形で分かち書きされることが多い。
そこで、「生技セ」と「1営本」という単語を辞書に登録することになる。基本的には、第1の実施形態の説明で行った手順にて行なうことになるのだが、ここでは、第2の実施形態における説明を行なうため、「部門」という概念を新設したと考える。
Some general morphological analysis engines have a function of recognizing the same character type as much as possible. However, since the department name abbreviations contain multiple character types, the department name abbreviations cannot be analyzed well.
Here, as an example of a department name and its abbreviation in a certain company, “production technology center” which is an abbreviation of “production technology center” and “1 management” which is an abbreviation of “first sales headquarters” are considered. Both abbreviations include two or more character types. Therefore, when these words are analyzed by a general morphological analysis engine without being registered, they are often written in the form of “skills / se”, “1 / operating / book”.
Therefore, the words “raw technology” and “1 management” are registered in the dictionary. Basically, the procedure is the same as that described in the description of the first embodiment, but here, in order to explain in the second embodiment, it is considered that the concept of “department” is newly established.

図32は、「部門」という概念を新設した場合における概念定義辞書D130の具体例である。なお、ここでは、図32に示すように、「部門」という概念は、概念IDを「140」で登録することとする。また、「生技セ」と「1営本」という単語は、概念辞書D140において、概念IDと紐付けて定義することになる。ここでは、図33に示すように、「生技セ」と「1営本」という単語は、それぞれ概念ID「140」と紐付けられていることとする。   FIG. 32 is a specific example of the concept definition dictionary D130 when the concept of “department” is newly established. Here, as shown in FIG. 32, the concept “department” is registered with the concept ID “140”. In addition, the words “production technology” and “1 management” are defined in the concept dictionary D140 in association with the concept ID. Here, as shown in FIG. 33, it is assumed that the words “skills” and “1 management” are associated with the concept ID “140”, respectively.

第1の実施形態では、以上の設定で概念の生起コストを算出していたが、この時点では、「部門」という概念に紐付けられている単語が「生技セ」と「1営本」という単語であり、これらは新規に登録した単語であるため、それらの単語における生起コストは設定されていない。したがって、第1の実施形態では、概念における妥当な生起コストを算出することは困難となってしまう。そこで、第2の実施形態では、新たに概念間の関係性、つまり、言葉の意味同士のつながりを利用することにする。   In the first embodiment, the occurrence cost of the concept is calculated with the above settings. At this point, the words associated with the concept of “department” are “skills” and “1 management”. Since these are newly registered words, no occurrence cost is set for those words. Therefore, in the first embodiment, it is difficult to calculate a reasonable occurrence cost in the concept. Therefore, in the second embodiment, a relationship between concepts, that is, a connection between meanings of words is newly used.

図34は、その概念間の関係性を定義した概念関係定義辞書D170の具体例、つまり、図31の具体例となっている。図34から、例えば、概念IDが「100」のものは、概念IDが「110」のものと「上位」という役割でつながっていることがわかる。また、図32より、概念IDが100というのは、「組織」という概念であり、概念IDが「110」というのは、「企業」であることがわかる。   FIG. 34 shows a specific example of the concept relationship definition dictionary D170 that defines the relationship between the concepts, that is, the specific example of FIG. From FIG. 34, for example, it can be seen that the one with the concept ID “100” is connected to the one with the concept ID “110” by the role of “upper”. Further, it can be seen from FIG. 32 that the concept ID of 100 is the concept of “organization” and the concept ID of “110” is “company”.

すなわち、「組織」という概念は、「企業」という概念の上位概念であることがわかる。同様に、「組織」という概念は、「部門」という概念の上位概念であり、「部門」という概念は、「企業」という概念の部分概念であることがわかる。なお、上記をイメージ化した図が図35である。図35で示す通り、ある単語とその意味を表現する概念をマッピングすることや概念と概念とをマッピングすることは比較的容易であるといえる。   That is, it can be seen that the concept of “organization” is a superordinate concept of the concept of “company”. Similarly, the concept “organization” is a superordinate concept of the concept “department”, and the concept “department” is a partial concept of the concept “company”. FIG. 35 is an image of the above. As shown in FIG. 35, it can be said that it is relatively easy to map a certain word and a concept expressing its meaning or to map a concept and a concept.

なお、図34あるいは図35では、概念と概念の関係性は1つのみ定義しているが、概念間の関係性は複数個定義することも、なにも定義しないこともできる。例えば、「組織という概念は、企業という概念の上位概念である」と定義すると共に、「企業という概念は、組織という概念の下位概念である」と定義することもできる。   In FIG. 34 or FIG. 35, only one relationship between concepts is defined, but a plurality of relationships between concepts can be defined or none can be defined. For example, it may be defined that “the concept of organization is a superordinate concept of the concept of company” and “the concept of enterprise is a subordinate concept of the concept of organization”.

さらに、第1の実施形態にて述べたように、これらの辞書情報の登録作業を効率化するために、専用の画面を用意することも容易に実現できる。
これらを元に、図29におけるステップS111を実行した場合を考える。ここでは、図29のステップS107の実行結果として、「企業」という概念の左文脈IDが「011」、右文脈IDが「011」、生起コストが「100」であったとして記載を進める。以下、図31を元に説明を進める。
Furthermore, as described in the first embodiment, it is possible to easily prepare a dedicated screen in order to improve the efficiency of the registration work of these dictionary information.
Consider the case where step S111 in FIG. 29 is executed based on these. Here, as the execution result of step S107 of FIG. 29, description is advanced on the assumption that the left context ID of the concept “company” is “011”, the right context ID is “011”, and the occurrence cost is “100”. Hereinafter, the description will be given based on FIG.

図31におけるステップS11104で抽出された概念生起コスト情報が、「企業」という概念のものであった場合、ステップS11105乃至ステップS11110において、「企業」という概念、すなわち、概念IDが「110」を含む概念関係定義情報を走査することになる。
あるタイミングにおいて、概念ID−1が「100」、概念ID−2が「110」という項目がヒットし、その役割が「上位」であった時、ステップS11107にて概念生起コストモデルの更新を行う。具体的には、「企業」という概念における生起コスト「100」に対してある一定の重み値を乗算した値をその概念の生起コストと位置付ける。なお、ある一定の重み値については、上位概念は「0.95」、部分概念は「0.9」など、役割毎にあらかじめ設定しておけばよい。ここでは、100×0.95=95を設定するものとする。
If the concept occurrence cost information extracted in step S11104 in FIG. 31 has the concept “company”, the concept “company”, that is, the concept ID includes “110” in steps S11105 to S11110. The conceptual relationship definition information is scanned.
At a certain timing, when the items of concept ID-1 “100” and concept ID-2 “110” are hit and their role is “higher”, the concept generation cost model is updated in step S11107. . Specifically, a value obtained by multiplying the occurrence cost “100” in the concept “company” by a certain weight value is positioned as the occurrence cost of the concept. A certain weight value may be set in advance for each role, such as “0.95” for the superordinate concept and “0.9” for the partial concept. Here, 100 × 0.95 = 95 is set.

その後、概念ID「100」と、「企業」という概念における左文脈ID「011」、右文脈ID「011」、算出した生起コスト「95」をセットにして、概念生起コストモデルに追加する。
また、あるタイミングにおいて、概念ID−1が「140」、概念ID−2が「110」という項目がヒットし、その役割が「部分」であった時、ステップS11107にて概念生起コストモデルの更新を行う。ここでは、部分概念関係は「0.9」という重みに設定することとすれば、概念ID「140」の生起コストは100×0.9=90という値となる。
そこで、概念ID「140」と、「企業」という概念における左文脈ID「011」、右文脈ID「011」、算出した生起コスト「90」をセットにして、概念生起コストモデルに追加する。
Thereafter, the concept ID “100”, the left context ID “011”, the right context ID “011”, and the calculated occurrence cost “95” in the concept “company” are set and added to the concept occurrence cost model.
Also, at a certain timing, when the items of concept ID-1 “140” and concept ID-2 “110” are hit and the role is “partial”, the concept occurrence cost model is updated in step S11107. I do. Here, if the partial concept relationship is set to a weight of “0.9”, the occurrence cost of the concept ID “140” has a value of 100 × 0.9 = 90.
Therefore, the concept ID “140”, the left context ID “011”, the right context ID “011”, and the calculated occurrence cost “90” in the concept “company” are added to the concept occurrence cost model as a set.

上記の処理を繰り返すことにより、「組織」のように単語が紐付いていない概念の場合や、「部門」のような単語の生起コストが設定されていない単語のみと紐付いている場合においても、概念に適切な生起コストが算出されていくことになる。なお、この後の処理については、第1の実施形態と同様であるため、省略する。   By repeating the above process, even in the case of a concept such as “organization” where no word is associated, or in the case where it is associated only with a word that does not have a word occurrence cost such as “department”, The cost of occurrence appropriate for the concept will be calculated. Note that the subsequent processing is the same as that in the first embodiment, and is therefore omitted.

以上説明したように、本実施形態を適用することにより、言葉が持つ意味同士の関係性、つまり、概念間の関係性を考慮することができるようになるため、第1の実施例による効果に加えて、新規に概念を定義し、かつ、その新規概念に紐付く単語を新規登録する場合においても、適切なコスト値を算出することが可能になる。   As described above, by applying this embodiment, it becomes possible to consider the relationship between meanings of words, that is, the relationship between concepts. In addition, even when a concept is newly defined and a word associated with the new concept is newly registered, an appropriate cost value can be calculated.

101・・・情報分析辞書構築サブシステム、
102・・・情報分析サーバ、
103および104・・・情報分析クライアント、
105・・・ネットワーク、
110・・・メモリ、
120・・・記憶装置、
130・・・CPU(中央演算装置)、
140・・・出力装置、
150・・・入力装置、
160・・・通信インタフェース、
170・・・バス
101 ... Information analysis dictionary construction subsystem,
102: Information analysis server,
103 and 104 ... Information analysis client,
105 ... Network,
110: Memory,
120... Storage device,
130: CPU (Central Processing Unit),
140 ... output device,
150 ... input device,
160 ... communication interface,
170 ... Bus

Claims (10)

自然言語からなるテキストデータを分析する装置であって、
自然言語に用いられる単語とその特性を対応付けて登録した単語辞書と単語の意味を示す意味タグとその意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書とから成る辞書データを読み込む外部定義辞書取得手段と、
前記外部定義辞書取得手段によって取得した辞書データを元に、前記テキストデータの意味概念に内包される単語の特性集合により意味概念の特性を推定する概念特性推定手段と、
ユーザが追加で作成した単語の意味を示す意味タグと前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書を読み込み、前記概念特性推定手段によって得られた意味概念の特性内容と対応付けることにより、単語の特性内容を推定する単語特性推定手段と、
前記外部定義辞書取得手段によって得られる辞書データと前記単語特性推定手段によって得られる単語の特性を元に、情報分析を実行するために適切な形式に解析し、分析辞書を構築する分析辞書構築手段と、
ユーザが入力した自然言語からなるテキスト情報を入力文として受け付ける文字情報受付手段と、
前記分析辞書構築手段により生成した分析辞書を用いて前記文字情報受付手段によって得られた入力文に内包される単語を同定して抽出する単語抽出手段と、
前記単語抽出手段によって得られた抽出結果をユーザの指示に基づき、選択して出力する分析結果出力手段と
を有することを特徴とする情報分析装置。
A device for analyzing text data consisting of natural language,
A word dictionary registered in association with a word used in a natural language and its characteristics, a concept dictionary in which a meaning tag indicating the meaning of the word and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word An externally defined dictionary acquisition means for reading dictionary data consisting of:
Based on the dictionary data acquired by the external definition dictionary acquisition means, concept characteristic estimation means for estimating the characteristics of the semantic concept by a characteristic set of words included in the semantic concept of the text data,
A concept dictionary in which a semantic tag indicating the meaning of a word additionally created by a user and a semantic concept indicating the concept of the semantic tag are registered in association with each meaning of the word is read and obtained by the concept characteristic estimation means Word characteristic estimation means for estimating the characteristic content of a word by associating it with the characteristic content of a semantic concept;
Analysis dictionary construction means for constructing an analysis dictionary by analyzing in an appropriate format for performing information analysis based on dictionary data obtained by the external definition dictionary acquisition means and word characteristics obtained by the word characteristic estimation means When,
Character information accepting means for accepting text information composed of a natural language input by the user as an input sentence;
A word extraction unit that identifies and extracts a word included in the input sentence obtained by the character information reception unit using the analysis dictionary generated by the analysis dictionary construction unit;
An information analysis apparatus comprising: an analysis result output unit that selects and outputs an extraction result obtained by the word extraction unit based on a user instruction.
前記外部定義辞書取得手段が、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて、前記意味概念間の関係性を定義した概念関係辞書を読み込む手段をさらに有し、前記概念特性推定手段が、意味概念間の上下関係などの関係性を考慮して概念特性を修正する概念特性修正手段ををさらに有することを特徴とする請求項1に記載の情報分析装置。   The external definition dictionary acquisition means, as an external definition dictionary, a word dictionary registered in association with a word used in natural language and its characteristics, a semantic tag indicating the meaning of the word, and a semantic concept indicating the concept of the semantic tag; In addition to the concept dictionary registered in association with each meaning of the word, and further includes means for reading a concept relation dictionary defining the relationship between the semantic concepts, and the concept characteristic estimation means includes The information analysis apparatus according to claim 1, further comprising conceptual characteristic correcting means for correcting the conceptual characteristics in consideration of a relationship such as a vertical relationship. 前記分析結果出力手段が出力した結果が、十分に分析できなかったとシステムが判断した項目を記憶装置に保持する改善候補保持手段と、
前記各辞書をメンテナンスするユーザの指示に従い、改善候補データを提示する改善候補データ提示手段とをさらに備えることを特徴とする請求項1または請求項2に記載の情報分析装置。
Improvement candidate holding means for holding, in the storage device, items determined by the system that the result output by the analysis result output means could not be analyzed sufficiently;
The information analysis apparatus according to claim 1, further comprising improvement candidate data presenting means for presenting improvement candidate data in accordance with an instruction of a user who maintains each dictionary.
自然言語からなるテキストデータを計算機によって分析する方法であって、
前記計算機が、
自然言語に用いられる単語とその特性を対応付けて登録した単語辞書と単語の意味を示す意味タグとその意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書とから成る辞書データを読み込む第1のステップと、
前記第1のステップにおいて読み込んだ辞書データを元に、前記テキストデータの意味概念に内包される単語の特性集合により意味概念の特性を推定する第2のステップと、
ユーザが追加で作成した単語の意味を示す意味タグと前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書を読み込み、前記第2のステップで得られた意味概念の特性内容と対応付けることにより、単語の特性内容を推定する第3のステップと、
前記第1のステップにおいて読み込んだ辞書データと前記第2のステップにおいて得られた単語の特性を元に、情報分析を実行するために適切な形式に解析し、分析辞書を構築する第3のステップと、
ユーザが入力した自然言語からなるテキスト情報を入力文として受け付ける第4のステップと、
前記第3のステップにおいて構築した分析辞書を用いて前記第4のステップにおいて受け付けた入力文に内包される単語を同定して抽出する第5のステップと、
前記第5のステップにおいて抽出した抽出結果をユーザの指示に基づき、選択して出力する第6のステップと
を備えることを特徴とする情報分方法。
A method of analyzing text data composed of natural language by a computer,
The calculator is
A word dictionary registered in association with a word used in a natural language and its characteristics, a concept dictionary in which a meaning tag indicating the meaning of the word and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word A first step of reading dictionary data comprising:
A second step of estimating the characteristics of the semantic concept based on the characteristic set of words included in the semantic concept of the text data based on the dictionary data read in the first step;
A concept dictionary in which a meaning tag indicating the meaning of an additional word created by a user and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word is read and obtained in the second step A third step of estimating the characteristic content of the word by associating with the characteristic content of the semantic concept;
A third step of constructing an analysis dictionary by analyzing in an appropriate format for performing information analysis based on the dictionary data read in the first step and the characteristics of the words obtained in the second step When,
A fourth step of accepting text information consisting of a natural language input by the user as an input sentence;
A fifth step of identifying and extracting words contained in the input sentence received in the fourth step using the analysis dictionary constructed in the third step;
And a sixth step of selecting and outputting the extraction result extracted in the fifth step based on a user instruction.
前記第1のステップが、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて、前記意味概念間の関係性を定義した概念関係辞書を読み込むステップをさらに有し、前記第2のステップが、意味概念間の上下関係などの関係性を考慮して概念特性を修正するステップをさらに有することを特徴とする請求項4に記載の情報分析方法。   The first step includes, as an external definition dictionary, a word dictionary registered in association with a word used in a natural language and its characteristics, a semantic tag indicating the meaning of the word, and a semantic concept indicating the concept of the semantic tag. In addition to the concept dictionary registered in association with the meaning of each word, the method further includes a step of reading a concept relation dictionary that defines the relationship between the semantic concepts, and the second step includes an upper and lower order between semantic concepts. 5. The information analysis method according to claim 4, further comprising a step of correcting the concept characteristic in consideration of a relationship such as a relationship. 前記第6のステップにおいて出力した結果が、十分に分析できなかったとシステムが判断した項目を改善候補として記憶装置に保持するステップと、
前記各辞書をメンテナンスするユーザの指示に従い、前記改善補のデータを提示するステップをさらに備えることを特徴とする請求項4または請求項5に記載の情報分析方法。
Holding the item determined by the system as a result of the output in the sixth step as a candidate for improvement in the storage device;
The information analysis method according to claim 4, further comprising a step of presenting the improvement data in accordance with an instruction of a user who maintains each dictionary.
前記第1のステップにおいて、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて前記意味概念間の関係性を定義した概念関係辞書を読み込み、前記メモリに格納するステップと、
意味概念間の上下関係などの関係性を考慮して概念特性を修正するステップとをさらに含むことを特徴とする請求項5に記載の情報分析方法。
In the first step, as an external definition dictionary, a word dictionary registered in association with a word used in a natural language and its characteristics, a semantic tag indicating the meaning of the word, and a semantic concept indicating the concept of the semantic tag Reading a concept relation dictionary defining the relationship between the semantic concepts in addition to the concept dictionary registered in association with each meaning of the word, and storing in the memory;
The information analysis method according to claim 5, further comprising a step of correcting concept characteristics in consideration of a relationship such as a vertical relationship between semantic concepts.
自然言語からなるテキストデータを計算機によって分析するためのプログラムであって、
前記計算機を、
自然言語に用いられる単語とその特性を対応付けて登録した単語辞書と単語の意味を示す意味タグとその意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書とから成る辞書データを読み込む外部定義辞書取得手段と、
前記外部定義辞書取得手段によって取得した辞書データを元に、前記テキストデータの意味概念に内包される単語の特性集合により意味概念の特性を推定する概念特性推定手段と、
ユーザが追加で作成した単語の意味を示す意味タグと前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書を読み込み、前記概念特性推定手段によって得られた意味概念の特性内容と対応付けることにより、単語の特性内容を推定する単語特性推定手段と、
前記外部定義辞書取得手段によって得られる辞書データと前記単語特性推定手段によって得られる単語の特性を元に、情報分析を実行するために適切な形式に解析し、分析辞書を構築する分析辞書構築手段と、
ユーザが入力した自然言語からなるテキスト情報を入力文として受け付ける文字情報受付手段と、
前記分析辞書構築手段により構築した分析辞書を用いて前記文字情報受付手段によって得られた入力文に内包される単語を同定して抽出する単語抽出手段と、
前記単語抽出手段によって得られた抽出結果をユーザの指示に基づき、選択して出力する分析結果出力手段として機能させることを特徴とするプログラム。
A program for analyzing text data composed of natural language by a computer,
The calculator
A word dictionary registered in association with a word used in a natural language and its characteristics, a concept dictionary in which a meaning tag indicating the meaning of the word and a meaning concept indicating the concept of the meaning tag are registered in association with each meaning of the word An externally defined dictionary acquisition means for reading dictionary data consisting of:
Based on the dictionary data acquired by the external definition dictionary acquisition means, concept characteristic estimation means for estimating the characteristics of the semantic concept by a characteristic set of words included in the semantic concept of the text data,
A concept dictionary in which a semantic tag indicating the meaning of a word additionally created by a user and a semantic concept indicating the concept of the semantic tag are registered in association with each meaning of the word is read and obtained by the concept characteristic estimation means Word characteristic estimation means for estimating the characteristic content of a word by associating it with the characteristic content of a semantic concept;
Analysis dictionary construction means for constructing an analysis dictionary by analyzing in an appropriate format for performing information analysis based on dictionary data obtained by the external definition dictionary acquisition means and word characteristics obtained by the word characteristic estimation means When,
Character information accepting means for accepting text information composed of a natural language input by the user as an input sentence;
Word extraction means for identifying and extracting words included in the input sentence obtained by the character information reception means using the analysis dictionary constructed by the analysis dictionary construction means;
A program for causing an extraction result obtained by the word extraction means to function as an analysis result output means for selecting and outputting based on a user instruction.
前記外部定義辞書取得手段を、外部定義辞書として、自然言語に用いられる単語とその特性を対応付けて登録した単語辞書および単語の意味を示す意味タグと、前記意味タグの概念を示す意味概念とを前記単語の意味毎に対応付けて登録した概念辞書に加えて、前記意味概念間の関係性を定義した概念関係辞書を読み込む手段として機能させ、さらに前記概念特性推定手段を、意味概念間の上下関係などの関係性を考慮して概念特性を修正する概念特性修正手段として機能させることを特徴とする請求項8に記載のプログラム。   The external definition dictionary acquisition means as an external definition dictionary, a word dictionary registered in association with a word used in a natural language and its characteristics, a semantic tag indicating the meaning of the word, and a semantic concept indicating the concept of the semantic tag; In addition to the concept dictionary registered in association with each meaning of the word, and function as means for reading the concept relation dictionary defining the relationship between the semantic concepts, and further, the concept characteristic estimation means, 9. The program according to claim 8, wherein the program is made to function as a conceptual characteristic correcting unit that corrects a conceptual characteristic in consideration of a relationship such as a vertical relationship. 前記分析結果出力手段が出力した結果が、十分に分析できなかったとシステムが判断した項目を記憶装置に保持する改善候補保持手段として機能させ、
前記各辞書をメンテナンスするユーザの指示に従い、改善候補データを提示する改善候補データ提示手段として機能させることを特徴とする請求項8または請求項9に記載のプログラム。
The result output by the analysis result output unit functions as an improvement candidate holding unit that holds in the storage device the items that the system has determined to have not been sufficiently analyzed,
10. The program according to claim 8, wherein the program is made to function as improvement candidate data presentation means for presenting improvement candidate data in accordance with an instruction of a user who maintains each dictionary.
JP2012133729A 2012-06-13 2012-06-13 Character information analysis method, information analysis apparatus, and program Expired - Fee Related JP5941345B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012133729A JP5941345B2 (en) 2012-06-13 2012-06-13 Character information analysis method, information analysis apparatus, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012133729A JP5941345B2 (en) 2012-06-13 2012-06-13 Character information analysis method, information analysis apparatus, and program

Publications (2)

Publication Number Publication Date
JP2013257756A true JP2013257756A (en) 2013-12-26
JP5941345B2 JP5941345B2 (en) 2016-06-29

Family

ID=49954137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012133729A Expired - Fee Related JP5941345B2 (en) 2012-06-13 2012-06-13 Character information analysis method, information analysis apparatus, and program

Country Status (1)

Country Link
JP (1) JP5941345B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740436A (en) * 2016-02-01 2016-07-06 北京京东尚科信息技术有限公司 Internet search technology based written works pushing method and apparatus

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816597A (en) * 1994-06-24 1996-01-19 Oki Electric Ind Co Ltd Word dictionary registration device and document recognition device
JP2005173753A (en) * 2003-12-09 2005-06-30 Ricoh Co Ltd Device and method for updating natural word dictionary, program, and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0816597A (en) * 1994-06-24 1996-01-19 Oki Electric Ind Co Ltd Word dictionary registration device and document recognition device
JP2005173753A (en) * 2003-12-09 2005-06-30 Ricoh Co Ltd Device and method for updating natural word dictionary, program, and recording medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015052533; 永井 秀利 外1名: '日本語における単語の造語モデルとその評価' 情報処理学会論文誌 第34巻第9号, 19930915, p.1944-1955, 社団法人情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740436A (en) * 2016-02-01 2016-07-06 北京京东尚科信息技术有限公司 Internet search technology based written works pushing method and apparatus
CN105740436B (en) * 2016-02-01 2019-12-27 北京京东尚科信息技术有限公司 Method and device for pushing written works based on Internet search technology

Also Published As

Publication number Publication date
JP5941345B2 (en) 2016-06-29

Similar Documents

Publication Publication Date Title
TWI729472B (en) Method, device and server for determining feature words
EP2570974B1 (en) Automatic crowd sourcing for machine learning in information extraction
US11080493B2 (en) Translation review workflow systems and methods
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US9864741B2 (en) Automated collective term and phrase index
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
JP2018097846A (en) Api learning
US10877828B2 (en) Automatic analysis of a set of systems used to implement a process
WO2016036851A1 (en) Method and system for determining edit rules for rewriting phrases
US20210073257A1 (en) Logical document structure identification
US20160085389A1 (en) Knowledge automation system thumbnail image generation
CN114186533A (en) Model training method and device, knowledge extraction method and device, equipment and medium
Shu et al. Word segmentation in Chinese language processing
CN112015866B (en) Method, device, electronic equipment and storage medium for generating synonymous text
WO2024078105A1 (en) Method for extracting technical problem in patent literature and related device
WO2022125096A1 (en) Method and system for resume data extraction
CN110347806B (en) Original text screening method, original text screening device, original text screening equipment and computer readable storage medium
JP5941345B2 (en) Character information analysis method, information analysis apparatus, and program
CN111026916A (en) Text description conversion method and device, electronic equipment and storage medium
US10628632B2 (en) Generating a structured document based on a machine readable document and artificial intelligence-generated annotations
CN113656579A (en) Text classification method, device, equipment and medium
US20240012995A1 (en) Computerized systems and methods for hierarchical structure parsing and building
CN102880606B (en) A kind of computer implemented method and apparatus for optimizing marking language text
JP2023155158A (en) smart translation system
Zuo et al. How to Get to Know Your Customers Better? A Case Analysis of Smartphone Users with Chinese Input Method Based on Baidu Index

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150202

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150413

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20150420

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160105

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160520

R150 Certificate of patent or registration of utility model

Ref document number: 5941345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees