JP5239161B2 - Language analysis system, language analysis method, and computer program - Google Patents
Language analysis system, language analysis method, and computer program Download PDFInfo
- Publication number
- JP5239161B2 JP5239161B2 JP2007000070A JP2007000070A JP5239161B2 JP 5239161 B2 JP5239161 B2 JP 5239161B2 JP 2007000070 A JP2007000070 A JP 2007000070A JP 2007000070 A JP2007000070 A JP 2007000070A JP 5239161 B2 JP5239161 B2 JP 5239161B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word
- score
- unit
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims description 210
- 238000004590 computer program Methods 0.000 title claims description 11
- 238000012545 processing Methods 0.000 claims description 89
- 238000000605 extraction Methods 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 63
- 238000004364 calculation method Methods 0.000 claims description 48
- 239000000284 extract Substances 0.000 claims description 23
- 230000000877 morphologic effect Effects 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 description 53
- 210000000988 bone and bone Anatomy 0.000 description 42
- 210000001699 lower leg Anatomy 0.000 description 32
- 238000007796 conventional method Methods 0.000 description 10
- 210000003128 head Anatomy 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 8
- 210000000689 upper leg Anatomy 0.000 description 7
- 230000010365 information processing Effects 0.000 description 4
- 206010061599 Lower limb fracture Diseases 0.000 description 3
- 241000406668 Loxodonta cyclotis Species 0.000 description 3
- 210000003484 anatomy Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 210000001165 lymph node Anatomy 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000002344 surface layer Substances 0.000 description 3
- 210000003462 vein Anatomy 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010017076 Fracture Diseases 0.000 description 1
- 208000003098 Ganglion Cysts Diseases 0.000 description 1
- 206010019114 Hand fracture Diseases 0.000 description 1
- 208000005400 Synovial Cyst Diseases 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 210000002478 hand joint Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 210000005037 parasympathetic nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003786 sclera Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、言語解析システム、および言語解析方法、並びにコンピュータ・プログラムに関する。さらに詳細には、テキスト解析による用語の抽出を実行する言語解析システム、および言語解析方法、並びにコンピュータ・プログラムに関する。 The present invention relates to a language analysis system, a language analysis method, and a computer program. More specifically, the present invention relates to a language analysis system, a language analysis method, and a computer program that execute term extraction by text analysis.
例えばデータベース検索などにおいて適用する検索キーや、用語辞書の索引としてのインデックスの設定など、データ処理において適用する用語を自然言語の文書から抽出する処理は、様々なデータ処理分野において必要となる技術である。 For example, a process for extracting a term applied in data processing from a natural language document such as a search key applied in a database search or an index as an index of a term dictionary is a technique required in various data processing fields. is there.
様々なテキストデータの集合はコーパスと呼ばれる。コーパスに含まれる文書からの用語抽出、すなわち意味のある言語単位としての用語を抽出する研究は従来から行われている。例えば、[車が道路を走る]といったありふれた文書であれば、一般的な形態素解析システムを適用することで、[車]、[道路]、[走る]といった形態素を抽出することが可能である。形態素解析システムは、予め定めた形態素解析用の辞書を適用して、辞書登録語に基づいて意味的最小単位である形態素(morpheme)に分節して品詞の認定処理を行なうシステムとして知られている。 A collection of various text data is called a corpus. Research on extracting terms from documents included in a corpus, that is, extracting terms as meaningful language units, has been performed. For example, if it is a common document such as [car runs on road], it is possible to extract morphemes such as [car], [road], and [run] by applying a general morphological analysis system. . The morpheme analysis system is known as a system that applies a predetermined dictionary for morpheme analysis and performs a part-of-speech recognition process by segmenting into morphemes that are semantic minimum units based on dictionary registered words. .
しかしながら、医療分野のように専門性の高い分野の専門用語を適切な形態素に区切ることは難しい。すなわち、医療分野などの専門性の高い分野で用いられる用語を網羅的に登録した辞書が少なく、辞書にのみ依存した言語解析を行っても、抽出されない専門用語が発生する。 However, it is difficult to divide technical terms in highly specialized fields such as the medical field into appropriate morphemes. That is, there are few dictionaries that comprehensively register terms used in highly specialized fields such as the medical field, and technical terms that are not extracted are generated even if language analysis that depends only on the dictionary is performed.
テキストからの用語抽出処理を開示した従来技術しては、例えば以下のような従来技術がある。非特許文献1(Shimohata, S. Sugio, T. Nagata, J. Retrieving collocations by co−occurrences and word order constraints. Proc. of ACL/EACL−97)には、大規模なテキストコーパスが与えられたときに、コロケーション(連語)を抽出する手法が開示されている。この非特許文献1では、コロケーション(連語)を抽出するにあたって、連語のコーパス内でのエントロピー(情報量)を計算し、両側の単語のエントロピーが設定した閾値を越える連語を抽出する構成である。
Examples of conventional techniques disclosing the term extraction processing from text include the following conventional techniques. Non-Patent Document 1 (Shimohata, S. Sugio, T. Nagata, J. Retrieving collections by co-ocurrenses and word order constraints. Proc. Of ACL scale). Discloses a technique for extracting collocations. This
また、特許文献1(特開平9−138801)には、自然言語で記述されるテキストから、任意の連続文字列をその周辺文字を考慮して抽出する技術を開示している。テキスト中で連続文字列の周辺に現れる文字を抽出し、連続文字列と同時に出現する頻度が、予め設定されている閾値を超えるものは、連続文字列としてまとめて単語や慣用句として抽出する構成である。 Japanese Patent Laid-Open No. 9-138801 discloses a technique for extracting an arbitrary continuous character string from a text described in a natural language in consideration of surrounding characters. A configuration that extracts characters that appear in the vicinity of a continuous character string in the text, and those that appear at the same time as the continuous character string exceed a preset threshold, are extracted as words or idioms together as a continuous character string It is.
また、非特許文献2(中川,森,湯本.出現頻度と連接頻度に基づく専門用語抽出.自然言語処理 Vol.10 No.1,2003年1月)は、専門分野コーパスから専門用語を自動抽出する手法を開示している。コーパスに対して形態素解析を行い、名詞を抽出する構成であり、単名詞もしくは複合名詞のコーパス内での出現頻度と構成する名詞に連接する名詞の頻度を用いてスコアを算出し、単名詞および複合名詞のランキングを行う構成である。 Non-patent document 2 (Nakakawa, Mori, Yumoto. Extraction of technical terms based on appearance frequency and connection frequency. Natural language processing Vol.10 No.1, January 2003) automatically extracts technical terms from a specialized corpus. The method to do is disclosed. It is a configuration that performs morphological analysis on the corpus and extracts nouns, calculates a score using the frequency of appearance of nouns or compound nouns in the corpus and the frequency of nouns connected to the constituent nouns, This is a configuration for ranking compound nouns.
さらに、特許文献2(特開2006−139686)は、高精度な未知語抽出を行う技術を開示している。テキストが与えられたときに、事前に用意されたテキスト集合内での文字列の統計量を用いてテキストの単語並びを求め文字列集合を抽出する処理と、形態素解析を行い形態素集合を得る処理との2つの処理を行う構成であり、これらの処理によって、得られた文字列のうち、得られた特定の品詞の形態素に含まれるものは除いて、統計量が一定以上のものを未知語として抽出する構成である。 Further, Patent Document 2 (Japanese Patent Laid-Open No. 2006-139686) discloses a technique for performing unknown word extraction with high accuracy. When text is given, processing to extract word set by obtaining word sequence of text using statistic of character string in text set prepared in advance and processing to obtain morpheme set by morphological analysis These processes are used to perform the two processes, and the character strings obtained by these processes, except for those included in the morpheme of the specific part-of-speech obtained, those whose statistics are above a certain level are unknown words It is the structure extracted as.
さらに、特許文献3(特開2006−31295)には、単語分割済みの第1のテキスト集合と単語非分割の第2のテキスト集合から、単語のn−gram確率を計算し、自然言語処理の精度を向上させる技術が開示されている。第1のテキスト集合から、隣り合う文字もしくは文字種が単語の境界になる確率を求め、第2のコーパスにおいて各文字間の間に分割確率を割り当て、第2のコーパスに対する自然言語処理の精度を向上させる構成である。
本発明は、テキスト解析による用語の抽出を行なう構成において、例えば形態素解析用の辞書等の辞書に登録されていない用語についても抽出を行なうことを可能とする言語解析システム、および言語解析方法、並びにコンピュータ・プログラムを提供することを目的とする。 The present invention relates to a language analysis system, a language analysis method, and a language analysis method capable of extracting even a term not registered in a dictionary such as a morphological analysis dictionary in a configuration for extracting a term by text analysis, and The object is to provide a computer program.
本発明の第1の側面は、
テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出部と、
テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出部の抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出部と、
前記分岐状態評価値算出部の算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定部と、
前記スコア設定部の設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定部と、
を有することを特徴とする言語解析システムにある。
The first aspect of the present invention is:
A character string extraction unit that extracts a set of character strings having a predetermined number of characters or less from text data;
Using the analysis processing for text in the text database, the character string extracted by the character string extraction unit is used as the analysis target character string, and an evaluation value representing the branch state of the appearance character string at the boundary of the analysis target character string is calculated. A branch state evaluation value calculation unit for
A score setting unit that sets a score corresponding to the analysis target character string based on the evaluation value calculated by the branch state evaluation value calculation unit;
A word determination unit that determines whether or not the analysis target character string is a word based on the score set by the score setting unit;
A language analysis system characterized by having
さらに、本発明の言語解析システムの一実施態様において、前記分岐数算出部で算出される評価値は、解析対象文字列の両端部のそれぞれ1文字以上における解析対象文字列の外方向の出現文字列の分岐状態を示す評価値と、前記解析対象文字列に接する両端部のそれぞれ1文字以上における解析対象文字列方向の出現文字列の分岐状態を示す評価値とを算出する構成であり、前記スコア設定部は、前記分岐数算出部の算出した評価値に基づいてスコアを算出する構成であることを特徴とする。 Furthermore, in one embodiment of the language analysis system of the present invention, the evaluation value calculated by the branch number calculation unit is an outward appearance character of the analysis target character string at one or more characters at each end of the analysis target character string. An evaluation value indicating a branching state of a column, and an evaluation value indicating a branching state of an appearance character string in an analysis target character string direction at each of one or more characters at both ends contacting the analysis target character string, The score setting unit is configured to calculate a score based on the evaluation value calculated by the branch number calculation unit.
さらに、本発明の言語解析システムの一実施態様において、前記スコア設定部は、解析対象文字列の両端部の1文字以上における解析対象文字列の外方向の出現文字列の分岐状態を示す評価値と、前記解析対象文字列に接する両端部の1文字以上における解析対象文字列方向の出現文字列の分岐状態を示す評価値とのうちの最小値に基づいてスコアを算出する構成であることを特徴とする。 Furthermore, in one embodiment of the language analysis system of the present invention, the score setting unit is an evaluation value indicating a branching state of the outward appearance character string of the analysis target character string at one or more characters at both ends of the analysis target character string And a score is calculated based on the minimum value of the evaluation values indicating the branching state of the appearance character string in the direction of the analysis target character string in one or more characters at both ends in contact with the analysis target character string. Features.
さらに、本発明の言語解析システムの一実施態様において、前記言語解析システムは、さらに、単語データベース内に登録された単語をm文字(ただしm≧1の予め定めた数)単位で分割する単語分割部と、前記分岐状態評価値算出部は、前記単語分割部の分割したm文字単位の文字列に対応する解析対象文字列の境界における出現文字列の分岐状態を表す複数の評価値を算出し、前記分岐状態評価値算出部の算出した複数の評価値から、m文字単位の文字列端部の外部方向の出現文字列の分岐状態を示す評価値を除く複数の評価値の平均値を閾値として算出する閾値設定部を有し、前記単語判定部は、前記スコア設定部の設定したスコアと、前記閾値設定部の設定した閾値との比較を実行して、比較結果に応じて前記解析対象文字列が単語であるとの判定を行なう構成であることを特徴とする。 Furthermore, in one embodiment of the language analysis system according to the present invention, the language analysis system further divides a word registered in the word database into units of m characters (where m ≧ 1 is a predetermined number). And the branch state evaluation value calculation unit calculates a plurality of evaluation values representing the branch state of the character string appearing at the boundary of the character string to be analyzed corresponding to the character string in m characters divided by the word dividing unit. The average value of a plurality of evaluation values excluding the evaluation value indicating the branching state of the externally appearing character string at the end of the character string in m characters from the plurality of evaluation values calculated by the branch state evaluation value calculation unit And the word determination unit performs a comparison between the score set by the score setting unit and the threshold set by the threshold setting unit, and the analysis target according to a comparison result String is word Characterized in that it is configured for judging that there.
さらに、本発明の言語解析システムの一実施態様において、前記言語解析システムは、さらに、前記文字列抽出部の抽出した文字列の集合から、単語として成立しない文字列を削除するフィルタリング処理を実行する文字列フィルタ部を有し、前記分岐状態評価値算出部は、前記文字列フィルタ部におけるフィルタリング後の文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する処理を実行する構成であることを特徴とする。 Furthermore, in an embodiment of the language analysis system of the present invention, the language analysis system further executes a filtering process for deleting a character string that does not hold as a word from the set of character strings extracted by the character string extraction unit. The branch state evaluation value calculation unit includes a character string after filtering in the character string filter unit as the analysis target character string, and the branch state of the appearance character string at the boundary of the analysis target character string. It is the structure which performs the process which calculates the evaluation value to represent.
さらに、本発明の言語解析システムの一実施態様において、前記言語解析システムは、さらに、前記文字列抽出部の抽出した抽出文字列から、抽出文字列の先頭および末尾文字列を抽出する先頭末尾文字列抽出部を有し、前記分岐状態評価値算出部は、前記先頭末尾文字列抽出部の抽出した先頭末尾文字列に基づいて、前記解析対象文字列の境界における出現文字列の分岐状態を表す評価値の算出を実行する構成であることを特徴とする。 Furthermore, in one embodiment of the language analysis system of the present invention, the language analysis system further includes a head end character for extracting a head character and a tail character string of the extracted character string from the extracted character string extracted by the character string extraction unit. The branch state evaluation value calculation unit represents a branch state of the appearance character string at the boundary of the analysis target character string based on the head / end character string extracted by the head / end character string extraction unit; It is the structure which performs calculation of an evaluation value, It is characterized by the above-mentioned.
さらに、本発明の言語解析システムの一実施態様において、前記言語解析システムは、さらに、前記文字列抽出部の抽出した抽出文字列から、抽出文字列の部分文字列を抽出する部分文字列抽出部を有し、前記分岐状態評価値算出部は、前記部分文字列抽出部の抽出した部分文字列に基づいて、前記解析対象文字列の内部における出現文字列の分岐状態を表す評価値の算出を実行し、前記単語判定部は、前記スコア設定部の設定したスコアと、前記部分文字列抽出部の抽出した部分文字列に関する前記分岐状態評価値算出部が算出した評価値に基づいて設定した内部スコアとに基づいて前記解析対象文字列が単語であるか否かを判定する処理を実行する構成であることを特徴とする。 Furthermore, in one embodiment of the language analysis system of the present invention, the language analysis system further includes a partial character string extraction unit that extracts a partial character string of the extracted character string from the extracted character string extracted by the character string extraction unit. The branch state evaluation value calculation unit calculates an evaluation value representing a branch state of the appearance character string inside the analysis target character string based on the partial character string extracted by the partial character string extraction unit. The word determination unit executes the internal set based on the score set by the score setting unit and the evaluation value calculated by the branch state evaluation value calculation unit regarding the partial character string extracted by the partial character string extraction unit It is the structure which performs the process which determines whether the said analysis object character string is a word based on a score.
さらに、本発明の言語解析システムの一実施態様において、前記言語解析システムは、テキストデータベースに格納されたテキスト単位で単語抽出処理を実行する構成であることを特徴とする。 Furthermore, in one embodiment of the language analysis system of the present invention, the language analysis system is configured to execute word extraction processing in units of text stored in a text database.
さらに、本発明の言語解析システムの一実施態様において、前記分岐状態評価値算出部において算出される評価値が、解析対象文字列の境界における出現文字列の分岐数を表すパープレキシティであることを特徴とする。 Furthermore, in one embodiment of the language analysis system of the present invention, the evaluation value calculated by the branch state evaluation value calculation unit is a perplexity that represents the number of branches of the appearance character string at the boundary of the analysis target character string. It is characterized by.
さらに、本発明の第2の側面は、
言語解析システムによるテキスト解析に基づいて抽出された単語データを登録した辞書であり、
前記言語解析システムに、
テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出部と、
テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出部の抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出部と、
前記分岐状態評価値算出部の算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定部と、
前記スコア設定部の設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定部と、
を有し、
前記単語判定部において単語として判定された単語データを登録データとして有する辞書にある。
Furthermore, the second aspect of the present invention provides
It is a dictionary that registers word data extracted based on text analysis by a language analysis system,
In the language analysis system,
A character string extraction unit that extracts a set of character strings having a predetermined number of characters or less from text data;
Using the analysis processing for text in the text database, the character string extracted by the character string extraction unit is used as the analysis target character string, and an evaluation value representing the branch state of the appearance character string at the boundary of the analysis target character string is calculated. A branch state evaluation value calculation unit for
A score setting unit that sets a score corresponding to the analysis target character string based on the evaluation value calculated by the branch state evaluation value calculation unit;
A word determination unit that determines whether or not the analysis target character string is a word based on the score set by the score setting unit;
Have
It exists in the dictionary which has the word data determined as a word in the said word determination part as registration data.
さらに、本発明の第3の側面は、
言語解析システムにおいて言語解析処理を実行する言語解析方法であり、
文字列抽出部が、テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出ステップと、
分岐数算出部が、テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出ステップと、
スコア設定部が、前記分岐状態評価値算出ステップで算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定ステップと、
単語判定部が、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定ステップと、
を有することを特徴とする言語解析方法にある。
Furthermore, the third aspect of the present invention provides
A language analysis method for executing language analysis processing in a language analysis system,
A character string extraction step in which the character string extraction unit extracts a set of character strings having a predetermined number of characters or less from the text data;
The branch number calculation unit uses the character string extracted in the character string extraction step by the analysis processing for the text in the text database as the analysis target character string, and the branch state of the appearance character string at the boundary of the analysis target character string A branch state evaluation value calculating step for calculating an evaluation value representing
A score setting step in which the score setting unit sets a score corresponding to the character string to be analyzed based on the evaluation value calculated in the branch state evaluation value calculation step;
A word determination step in which a word determination unit determines whether or not the analysis target character string is a word based on the score set in the score setting step;
A language analysis method characterized by comprising:
さらに、本発明の第4の側面は、
言語解析システムにおいて言語解析処理を実行させるコンピュータ・プログラムであり、
文字列抽出部に、テキストデータから予め定めた文字数以下の文字列の集合を抽出させる文字列抽出ステップと、
分岐数算出部に、テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出させる分岐状態評価値算出ステップと、
スコア設定部に、前記分岐状態評価値算出ステップで算出した評価値に基づいて解析対象文字列に対応するスコアを設定させるスコア設定ステップと、
単語判定部に、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定させる単語判定ステップと、
を実行させることを特徴とするコンピュータ・プログラムにある。
Furthermore, the fourth aspect of the present invention provides
A computer program that executes language analysis processing in a language analysis system,
A character string extraction step for causing the character string extraction unit to extract a set of character strings having a predetermined number of characters or less from the text data;
In the branch number calculation unit, the character string extracted in the character string extraction step by the analysis processing for text in the text database is set as the analysis target character string, and the branch state of the appearance character string at the boundary of the analysis target character string A branch state evaluation value calculating step for calculating an evaluation value representing
A score setting step for causing the score setting unit to set a score corresponding to the analysis target character string based on the evaluation value calculated in the branch state evaluation value calculating step;
A word determination step for causing a word determination unit to determine whether or not the analysis target character string is a word based on the score set in the score setting step;
In a computer program characterized by causing
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 Other objects, features, and advantages of the present invention will become apparent from a more detailed description based on embodiments of the present invention described later and the accompanying drawings. In this specification, the system is a logical set configuration of a plurality of devices, and is not limited to one in which the devices of each configuration are in the same casing.
請求項1記載の発明によれば、辞書に登録された単語を用いて登録されていない単語を抽出する手法と比較して、出現頻度が少なくても単語としてより正当な文字列を抽出することができる。
請求項2記載の発明によれば、抽出される文字列の境界をより正確に判定できることから、単語としてより正当な文字列が抽出できる。
請求項3記載の発明によれば、さらに出現文字列の分岐状態の多様性が小さい境界が文字列の端部やこの端部に隣接している場合であっても、単語としてより正当な文字列を抽出することができる。
請求項4記載の発明によれば、所定文字数で分割された文字列に関する閾値がより妥当に設定されるようになる。
請求項5記載の発明によれば、不要な分岐状態の評価処理が低減される。
請求項6記載の発明によれば、文字列の抽出を、単語の区切り位置を判断するのに妥当性の高い、文字列の境界における分岐状態に基づいて評価することができる。
請求項7記載の発明によれば、文字列の抽出を、抽出文字列の部分文字列が内部に存在するかどうかに基づいて評価することができる。
請求項8記載の発明によれば、所定数の単語が登録された辞書と比べて、入手が容易で情報量も豊富なテキストを用いることができるので広い分野に適用可能で、また出現頻度の少ない単語としてより正当な文字列の抽出が可能となる。
請求項9記載の発明によれば、文字列抽出に関わる条件設定や調整が容易なシステムを提供できる。
請求項10記載の発明によれば、これまで登録されていなかった文字列を辞書の登録語として利用できるようになる。
請求項11記載の発明によれば、辞書に登録された単語を用いて登録されていない単語を抽出する手法と比較して、出現頻度が少なくても単語としてより正当な文字列を抽出することができる。
請求項12記載の発明によれば、辞書に登録された単語を用いて登録されていない単語を抽出する手法と比較して、出現頻度が少なくても単語としてより正当な文字列を抽出することができるコンピュータ・プログラムを提供できる。
According to the first aspect of the present invention, it is possible to extract a character string more legitimate as a word even if the appearance frequency is low as compared with a method of extracting a word that is not registered using a word registered in a dictionary. Can do.
According to the invention described in
According to the third aspect of the present invention, even if the boundary where the diversity of the branch state of the appearing character string is small is adjacent to the end of the character string or this end, the character more legitimate as the word A column can be extracted.
According to the fourth aspect of the present invention, the threshold for the character string divided by the predetermined number of characters is set more appropriately.
According to the fifth aspect of the present invention, unnecessary branch state evaluation processing is reduced.
According to the sixth aspect of the present invention, the extraction of the character string can be evaluated based on the branch state at the boundary of the character string, which is highly appropriate for determining the word break position.
According to the seventh aspect of the present invention, the extraction of the character string can be evaluated based on whether or not the partial character string of the extracted character string exists inside.
According to the eighth aspect of the present invention, it is possible to use texts that are easily available and abundant in amount of information as compared with a dictionary in which a predetermined number of words are registered. It is possible to extract more legitimate character strings as fewer words.
According to the ninth aspect of the present invention, it is possible to provide a system that can easily set and adjust conditions related to character string extraction.
According to the invention described in claim 10, a character string that has not been registered can be used as a registered word in the dictionary.
According to the eleventh aspect of the present invention, a more legitimate character string can be extracted as a word even if the frequency of occurrence is low compared to a method of extracting a word that is not registered using a word registered in the dictionary. Can do.
According to the twelfth aspect of the present invention, compared to a method of extracting a word that is not registered using a word registered in the dictionary, a character string that is more legitimate as a word is extracted even if the appearance frequency is low. Can provide a computer program that can
以下、図面を参照しながら本発明の実施形態に係る言語解析システム、および言語解析方法、並びにコンピュータ・プログラムの詳細について説明する。 Hereinafter, a language analysis system, a language analysis method, and a computer program according to embodiments of the present invention will be described in detail with reference to the drawings.
[実施例1]
図1を参照して、本発明の一実施形態に係る言語解析システムの構成および処理について説明する。図1に示すように本発明の一実施形態に係る言語解析システム100は、テキスト入力部101、文字列抽出部102、文字列フィルタ部103、先頭・末尾文字列抽出部104、周辺文字列抽出部105、分岐数算出部106、単語分割部107、スコア設定部108、閾値設定部109、単語判定部110、さらにテキストデータベース121、単語データベース122を有する。
[Example 1]
With reference to FIG. 1, the configuration and processing of a language analysis system according to an embodiment of the present invention will be described. As shown in FIG. 1, a
本実施例に係る言語解析システムは、解析対象とする文書テキストからの単語抽出処理を行なうシステムであり、辞書に登録されていない単語や、テキスト中での出現頻度の高くない単語を抽出することを可能とした構成を持つ。すなわち、単語抽出を行なう解析対象テキスト集合が与えられたときに、文字列を形態素解析の結果やテキスト集合内での出現頻度によらずに、未知語として抽出することを可能とする装置である。 The language analysis system according to the present embodiment is a system that performs word extraction processing from document text to be analyzed, and extracts words that are not registered in the dictionary or words that do not appear frequently in the text. It has a configuration that enables. In other words, when an analysis target text set for word extraction is given, it is an apparatus that can extract a character string as an unknown word regardless of the result of morphological analysis or the appearance frequency in the text set. .
一般的な単語抽出処理としては、例えば形態素解析により単語登録辞書(標準辞書)を参照して辞書に登録された単語をテキストから選択する処理がある。また、例えば医学分野など有効な専門領域辞書が利用できない場合は、専門領域のテキスト集合に頻出する単語を辞書登録データと同様の単語とみなして未知語を抽出するといった処理が行なわれることもある。しかし、このような構成では、辞書に登録されていない語や、テキスト集合内での出現頻度の小さい文字列を単語として抽出するのは困難である。 As typical word extraction processing, for example, there is processing for selecting a word registered in a dictionary from text by referring to a word registration dictionary (standard dictionary) by morphological analysis. In addition, for example, when an effective special area dictionary such as the medical field cannot be used, a process of extracting an unknown word by regarding a word frequently appearing in the text set of the special area as a word similar to the dictionary registration data may be performed. . However, with such a configuration, it is difficult to extract words that are not registered in the dictionary or character strings that appear less frequently in the text set as words.
図1に示す本実施例に係る言語解析システム100は、辞書の登録データに依存することなく、また、特定のテキスト集合内での出現頻度の小さい文字列であっても単語として抽出することを実現する。以下、図1に示す言語解析システム100の処理の詳細について説明する。
The
まず、図1に示す言語解析システム100において適用されるテキストデータベース121、単語データベース122の構成について図2を参照して説明する。テキストデータベース121は、図2(a)に示すように様々なテキストを格納したデータベースであり、各テキストには識別子としてのIDが設定されている。本実施例では、医療分野のテキストを集めたテキストデータベースを利用した例について説明する。
First, the configuration of the
単語データベース122は、形態素解析の結果として得られる単語としての形態素を示す[表層]と、その単語[表層]の記録されたデータとしての辞書やテキストの[種類]とを対応付けたデータを登録しており各登録エントリには識別子としての[ID]が設定されている。
The
図1に示す本実施例に係る言語解析システムでは、単語抽出処理を行なう前の処理として閾値設定処理を実行する。以下、本実施例に係る言語解析システムにおいて実行する「閾値設定処理」と、「単語抽出処理」について、順次説明する。 In the language analysis system according to the present embodiment shown in FIG. 1, a threshold setting process is executed as a process before the word extraction process is performed. Hereinafter, “threshold setting processing” and “word extraction processing” executed in the language analysis system according to the present embodiment will be described in order.
[閾値設定処理]
図1に示す本実施例に係る言語解析システム100を適用したテキストからの単語抽出処理に際しては、まず、単語データベース122に登録された単語に基づく閾値設定処理を実行する。この処理は、図1に示す言語解析システム100の単語分割部107、分岐数算出部106、閾値設定部109の処理として実行される。本実施例における分岐状態の評価値としては、分岐数の指標であるパープレキシティを用いる。文字列のパープレキシティの計算方法は、例えば、北研二.確率的言語モデル.東京大学出版会,1999」等に詳細が記載されている。まず、この閾値設定処理について、図3に示すフローチャートを参照して説明する。
[Threshold setting process]
In the word extraction processing from the text to which the
まず、単語分割部107はステップS101において、単語データベース122に登録された単語を、表層のm文字で分割し、「異なり文字列」の集合を抽出する。mは予め1〜3位の小さな値を設定しておく。図2(b)に示す単語データベース内の登録データである、
[リンパ節]
[手関節骨折]
これらの[表層]データを対象とした単語分割処理について説明する。
First, in step S101, the
[Lymph node]
[Hand fractures]
A word division process for these [surface] data will be described.
m=1で異なり文字列集合を抽出すると、
[リンパ節]="リ"、"ン"、"パ"、"節"
[手関節骨折]=手"、"間"、"接"、"骨"、"折"
これらの「異なり文字列」の集合が抽出される。
When m = 1 and different character string sets are extracted,
[Lymph node] = "li", "n", "pa", "node"
[Hand joint fracture] = "hand", "between", "contact", "bone", "fold"
A set of these “different character strings” is extracted.
次のステップS102では、分岐数算出部(パープレキシティ算出部)106において、ステップS101で抽出した「異なり文字列」のパープレキシティを計算する。 In the next step S102, the branch number calculation unit (perplexity calculation unit) 106 calculates the perplexity of the “different character string” extracted in step S101.
文字列のパープレキシティは、ある文字列[W]に対して左右に出現する文字列のエントロピーの値に基づいて算出される。まず、以下のエントロピー算出式において、文字列[W]に対して左右に出現する文字列のエントロピーの値を求める。
上記式において、
WL:左側に現れる文字列集合
WR:右側に現れる文字列集合
n:集合の文字列数
である。
上記式によって、以下のエントロピー値が算出される。
H(WL):文字列[W]に対して左に出現する文字列のエントロピーの値、
H(WR):文字列[W]に対して右に出現する文字列のエントロピーの値、
In the above formula,
W L : Character string set appearing on the left side W R : Character string set appearing on the right side n: Number of character strings in the set
The following entropy value is calculated by the above formula.
H (W L ): Entropy value of the character string appearing on the left with respect to the character string [W],
H (W R ): the value of the entropy of the character string that appears to the right of the character string [W],
次に、文字列[W]のパープレキシティを以下の計算式によって算出する。
上記式において、
PP(WL):文字列[W]に対する左の文字列のパープレキシティ、
PP(WR):文字列[W]に対する右の文字列のパープレキシティ、
である。
In the above formula,
PP (W L ): Perplexity of the left character string with respect to the character string [W],
PP (W R ): right string perplexity with respect to the string [W],
It is.
パープレキシティは、ある文字列[W]に対して左右に出現する文字列の多様性を示す値である。パープレキシティは言語モデルにおける評価指標としてよく用いられており、本実施例では分岐数を示す指標として数2で定義されるパープレキシティを用いる。パープレキシティの値が高い場合は、ある文字列[W]に対して左右に出現する文字列が多様であることを示し、パープレキシティの値が低い場合は、ある文字列[W]に対して左右に出現する文字列が多様でない、すなわち限定されることを意味する。
The perplexity is a value indicating the diversity of character strings appearing on the left and right with respect to a certain character string [W]. Perplexity is often used as an evaluation index in a language model. In this embodiment, perplexity defined by
次に、ステップS103において、閾値設定部109が閾値設定処理を実行する。ステップS102において計算されたパープレキシティの中で、単語の先頭の左側および末尾の右側にしか表れない文字列を除いた平均を取り、閾値[t]として設定する。例えば、m=1で単語が"リンパ節"の場合、
"リ"、"ン"、"パ"の右側と、
"ン"、"パ"、"節"の左側、
これらの各パープレキシティの値のみを用いてパープレキシティ平均値を算出して、この算出したパープレキシティ平均値を閾値[t]とする。"リ"の左側と"節"の右側のパープレキシティは平均の計算には利用しない。
なお、上述した閾値の計算方法は一例であり、その他の閾値算出手法を適用してもよい。例えば、平均の変わりに中点を用いてもよいし、また閾値を左右2つ別々に計算してもよい。
Next, in step S103, the
To the right of "Li", "N", "Pa",
"N", "Pa", the left side of "Section",
A perplexity average value is calculated using only these perplexity values, and the calculated perplexity average value is defined as a threshold value [t]. The perplexity on the left side of "Li" and the right side of "Clause" is not used for calculating the average.
The threshold value calculation method described above is an example, and other threshold value calculation methods may be applied. For example, a midpoint may be used instead of the average, and the threshold values may be calculated separately on the left and right sides.
上述した処理によって閾値[t]を算出して、この閾値[t]を用いて、単語抽出処理が行われることになる。 The threshold value [t] is calculated by the above-described process, and the word extraction process is performed using the threshold value [t].
[単語抽出処理]
次に、図1に示す言語解析システム100において実行する単語抽出処理の詳細について、図4に示すフローチャートを参照して説明する。
[Word extraction processing]
Next, details of the word extraction processing executed in the
まず、ステップS201において、単語の抽出処理対象としてのテキストがシステムのテキスト入力部101に入力される。例えば、本実施例では医学分野のある1つのテキスト「最新解剖学用語集」に含まれるテキストに対する処理例について説明する。
例えば、テキスト「最新解剖学用語集」には、各エントリが改行で区切られている以下のようなテキストが含まれる。
(テキスト例)
「翼口蓋神経節の副交感神経根
右肺の内側肺底枝(B7)
後側頭板間静脈
強膜静脈洞
・・・」
First, in step S201, text as a word extraction process target is input to the
For example, the text “Latest Anatomy Glossary” includes the following text in which each entry is separated by a line feed.
(Text example)
“Parasympathetic nerve roots of the wing palate ganglion Right inner lung branch of the right lung (B7)
Posterior intertemporal vein scleral sinus ... "
次に、ステップS202において、文字列抽出部102が、入力されたテキストを改行・句点等の区切り記号で分割し、分割された各テキストから取りえる全ての部分文字列を抽出する。このとき、重複は除く。また、抽出量を抑えるために部分文字列の最大長を設定してもよい。例えば、
"強膜静脈洞"
から最大長3で部分文字列を抽出すると以下のような抽出文字列が取得される。
{強,膜,静,脈,洞,強膜,膜静,静脈,脈洞,強膜静,膜静脈,静脈洞}
Next, in step S202, the character
"Scleral venous sinus"
When a partial character string is extracted with a maximum length of 3, the following extracted character string is obtained.
{Strong, membranous, static, pulse, sinus, sclera, membranous, vein, sinus, scleral, membranous vein, sinus}
次に、ステップS203において、文字列フィルタリング部103において、文字列フィルタリング処理を実行する。ステップS202において抽出された文字列の内、特定の文字パターンを含むもの、特定の文字で始まるもの、特定の文字で終わるもの、単語データベース122に含まれるもの等を削除する。例えば、
(a)"が、を、する、と、に、または、による、の、される、のための、および、からの、における、との、への"を平仮名のまとまりとして含むもの、
(b)"ぁぃぅぇぉっゃゅょァィゥェォヵヶッャュョんンー・+−/%〜:;"のいずれかの文字で始まるもの、
(c)"・,、〜"のいずれかの文字で終わるもの、
これらは基本的に日本語の単語にはなりえないので削除する。文字列フィルタリング部103は予め削除する文字列情報を登録情報として保持し、これらの登録情報を適用して文字列フィルタリングを実行する。
In step S203, the character
(A) including, as a collective of Hiragana, "to," to, to, by, for, and from in to
(B) Things that begin with one of the characters “Ai ぅ e ぉ yayyayuyakyakyyayen + − /% ~ :;”,
(C) Those ending with any of the characters "., ~"
Since these cannot basically be Japanese words, they are deleted. The character
また、本実施例では、辞書に登録されていない単語の抽出処理を目的として実行しているので、文字列フィルタリング部103は、ステップS202において抽出された文字列の内、
(d)既に辞書に登録されている単語、
についても削除する処理を実行する。
本処理例では、「最新解剖学用語集」のエントリや形態素解析の標準的な辞書として知られているIPA辞書(http://chasen.naist.jp/hiki/ChaSen/)のエントリを予め単語データベース122に登録しておき、一致する文字列を削除する。
Further, in the present embodiment, since it is executed for the purpose of extracting words that are not registered in the dictionary, the character
(D) a word already registered in the dictionary;
The process of deleting is also executed.
In this processing example, an entry of “latest anatomical terminology” or an IPA dictionary (http://chasen.naist.jp/hiki/ChaSen/), which is known as a standard dictionary for morphological analysis, is pre-worded. It is registered in the
さらに、従来手法においては抽出されない単語の抽出のみを目的とする場合には、
(e)従来手法において抽出可能な単語であると判定される文字列、
についての削除を行なう構成としてもよい。
例えば、テキストデータベース121に格納されたテキスト内での出現頻度の大きい文字列については、従来手法を適用した処理によっても抽出可能な単語であり、これらの単語に相当する文字列を削除してもよい。
なお、従来手法において抽出可能な単語であると判定される文字列についての削除は行わない構成としてもよい。この場合は、これらの文字列についても、本実施例に従った処理を適用して単語として抽出することができる。
Furthermore, when the purpose is only to extract words that are not extracted by the conventional method,
(E) a character string determined to be a word that can be extracted by a conventional method;
It is good also as a structure which deletes about.
For example, a character string having a high appearance frequency in the text stored in the
In addition, it is good also as a structure which does not delete about the character string determined to be the word which can be extracted in a conventional method. In this case, these character strings can also be extracted as words by applying the processing according to the present embodiment.
ステップS203において、文字列フィルタリング部103は、このようなフィルタリング処理を実行する。本実施例では、ステップS202において抽出された文字列から、
(1)基本的に日本語の単語にはなりえない文字列(上記(a)〜(c))、
(2)既に辞書に登録されている単語(上記(d))、
(3)テキストデータベース121に格納されたテキスト内での出現頻度の大きい文字列(上記(e))、
これらの文字列を削除する。このフィルタリング処理の結果として、例えば、ステップS202において抽出された文字列から、上記(1)〜(3)に該当する文字列が削除され、その他の文字列が解析対象文字列として選択されることになる。ここでは、「最新解剖学用語集から抽出された出現頻度5以下の部分文字列」を解析対象文字列集合とする。例えば、以下の文字列が抽出される。
(解析対象文字列集合)
BIO
下腿骨
助骨部
中葉枝
In step S203, the character
(1) Character strings that cannot basically be Japanese words (above (a) to (c)),
(2) A word already registered in the dictionary (above (d)),
(3) a character string having a high appearance frequency in the text stored in the text database 121 ((e) above),
Delete these strings. As a result of this filtering process, for example, the character string corresponding to the above (1) to (3) is deleted from the character string extracted in step S202, and the other character string is selected as the analysis target character string. become. Here, “a partial character string having an appearance frequency of 5 or less extracted from the latest anatomical glossary” is set as an analysis target character string set. For example, the following character strings are extracted.
(Analysis target character string set)
BIO
Lower leg bone
次にステップS204で、ステップS203において選択された解析対象文字列集合から最初の文字列を解析対象文字列として取得し、ステップS205において、先頭・末尾文字列抽出部104が、対象文字列の先頭および末尾のm文字を抽出する。mは1以上の予め設定された値である。
例えば、m=1で、選択した解析対象文字列が"下腿骨"だとすれば、先頭の"下"と末尾の"骨"を抽出する。
Next, in step S204, the first character string is acquired as the analysis target character string from the analysis target character string set selected in step S203. In step S205, the head / end character
For example, if m = 1 and the selected character string to be analyzed is “lower leg bone”, the first “lower” and the last “bone” are extracted.
次のステップS206は、周辺文字列取得部105の処理であり、テキストデータベース121に格納されたテキストデータを対象とした解析処理により、対象文字列の周辺に現れる、m文字の周辺文字列の集合を抽出する。
例えば、テキストデータベース121に格納されている医療テキスト集合から、
文字列"下腿骨"の周辺文字列を抽出する。m=1とした設定では、文字列"下腿骨"の左側の1文字、右側の1文字をそれぞれ抽出する。その結果として、
左側の周辺文字列:"・""、"
これらの2種類の周辺文字列が得られ、
右側の周辺文字列として、"に""折"
これらの2種類の周辺文字列が得られる。
The next step S206 is a process of the peripheral character
For example, from a medical text set stored in the
Extract the surrounding character string of the character string "lower leg bone". With the setting of m = 1, one character on the left side and one character on the right side of the character string “crus bone” are extracted. As a result,
Left side string: "・"","
These two types of surrounding strings are obtained,
As the surrounding character string on the right side, “to” “fold”
These two types of surrounding character strings are obtained.
上記の処理結果は、具体的には、テキストデータベース121に格納されている医療テキスト集合に、
(a)「・・大腿・下腿骨に広範・・・」
(b)「・・象で、下腿骨折の影・・・」
これらの文書が検出された場合の結果である。すなわち、
上記(a)から「下腿骨」の左側の1文字「・」、右側の1文字「に」、
上記(b)から「下腿骨」の左側の1文字「、」、右側の1文字「折」、
これらが周辺文字列として抽出される。
Specifically, the above processing result is stored in a medical text set stored in the
(A) "... extensive on thighs and lower leg bones ..."
(B) "... the elephant, the shadow of the broken leg ..."
This is the result when these documents are detected. That is,
From the above (a), one character “·” on the left side of “crus bone”, one character “ni” on the right side,
From (b) above, one letter “,” on the left side of “crus bone”, one letter “fold” on the right side,
These are extracted as surrounding character strings.
次のステップS207は、分岐数算出部(パープレキシティ算出部)106の処理であり、ステップS206の周辺文字列抽出処理において抽出された、解析対象文字列「下腿骨」を含む文書を構成する
解析対象文字列「下腿骨」の先頭・末尾文字列、および
解析対象文字列「下腿骨」の左右の周辺文字列
これらの文字列集合の、テキストデータベース121に格納されたテキストデータ内でのパープレキシティを計算する。すなわち、本処理例では、ステップS206における周辺文字列抽出処理において抽出された、解析対象文字列「下腿骨」を含む文書は、以下の2つである。
(a)「・・大腿・下腿骨に広範・・・」
(b)「・・象で、下腿骨折の影・・・」
The next step S207 is a process of the branch number calculation unit (perplexity calculation unit) 106, and constitutes a document including the analysis target character string “lower leg bone” extracted in the peripheral character string extraction process of step S206. The first and last character strings of the character string to be analyzed “lower leg bone”, and the left and right surrounding character strings of the character string to be analyzed “lower leg bone”. The parsing of these character string sets in the text data stored in the
(A) "... extensive on thighs and lower leg bones ..."
(B) "... the elephant, the shadow of the broken leg ..."
分岐数算出部(パープレキシティ算出部)106は、この2つの文書から、
解析対象文字列「下腿骨」の先頭・末尾文字列、および
解析対象文字列「下腿骨」の左右の周辺文字列
を選択して、それぞれのパープレキシティを算出する。具体的処理例について、図5、図6を参照して説明する。
From the two documents, the branch number calculation unit (perplexity calculation unit) 106
Select the first and last character strings of the analysis target character string “lower leg bone” and the left and right surrounding character strings of the analysis target character string “lower leg bone”, and calculate the perplexity of each. A specific processing example will be described with reference to FIGS.
図5に示すように、抽出文書、
(a)「・・大腿・下腿骨に広範・・・」
この文書から、
解析対象文字列「下腿骨」の先頭文字列[下]と、末尾文字列[骨]が選択され、
「下腿骨」の先頭文字列[下]の左側パープレキシティと、
「下腿骨」の末尾文字列[骨]の右側パープレキシティ、
これらを算出し、さらに、
「下腿骨」の左の周辺文字列[・]の右側パープレキシティと、
「下腿骨」の右の周辺文字列[に]の左側パープレキシティ、
これらを、テキストデータベース121に格納されたテキストを対象とした処理によって算出する。
As shown in FIG.
(A) "... extensive on thighs and lower leg bones ..."
From this document,
The first character string [lower] and the last character string [bone] of the analysis target character string “crus bone” are selected,
The left perplexity of the first character string [lower] of “lower leg bone”,
The right-side perplexity of the last character string [bone] of “lower leg bone”,
Calculate these, and
The right perplexity of the surrounding character string [•] on the left side of “lower leg bone”,
The left perplexity of the character string [to] to the right of “lower leg bone”,
These are calculated by processing for text stored in the
パープレキシティは、先に[閾値設定処理]の説明の欄で説明したように、ある文字列[W]に対して左右に出現する文字列のエントロピーの値に基づいて算出され、文字列[W]に対して左右に出現する文字列の多様性を示す値であり、
PP(WL):文字列[W]に対する左の文字列のパープレキシティ、
PP(WR):文字列[W]に対する右の文字列のパープレキシティ、
である。
The perplexity is calculated based on the entropy value of the character string that appears to the left and right with respect to a certain character string [W], as described in the description section of [Threshold setting processing], and the character string [ W] is a value indicating the diversity of character strings appearing on the left and right,
PP (W L ): Perplexity of the left character string with respect to the character string [W],
PP (W R ): right string perplexity with respect to the string [W],
It is.
さらに、図6に示すように、もう1つの抽出文書、
(b)「・・象で、下腿骨折の影・・・」
この文書についても同様に、パープレキシティ算出対象文字列を選択する。すでに、解析対象文字列「下腿骨」の先頭文字列[下]と、末尾文字列[骨]については選択済みであるので、
「下腿骨」の左の周辺文字列[、]の右側パープレキシティと、
「下腿骨」の右の周辺文字列[折]の左側パープレキシティ、
これらを、テキストデータベース121に格納されたテキストを対象とした処理によって算出する。
Furthermore, as shown in FIG. 6, another extracted document,
(B) "... the elephant, the shadow of the broken leg ..."
Similarly, for this document, a perplexity calculation target character string is selected. Since the first character string [lower] and the last character string [bone] of the analysis target character string “crus bone” have already been selected,
The right perplexity of the left peripheral character string [,] of “lower leg bone”,
The left perplexity of the surrounding character string [fold] on the right side of “lower leg bone”,
These are calculated by processing for text stored in the
分岐数算出部(パープレキシティ算出部)106は、次の値を求める。
(1)解析対象文字列「下腿骨」の先頭文字列[下]の左側パープレキシティ
(2)解析対象文字列「下腿骨」の末尾文字列[骨]の右側パープレキシティ
(3)解析対象文字列「下腿骨」の左の周辺文字列[・][、]の右側パープレキシティの平均値、
(4)解析対象文字列「下腿骨」の右の周辺文字列[に][折]の左側パープレキシティの平均値、
これらの各値を算出する。
The branch number calculation unit (perplexity calculation unit) 106 obtains the following value.
(1) Left perplexity of the first character string [lower] of the character string to be analyzed “lower leg bone” (2) Right perplexity of the last character string [bone] of the character string to be analyzed “lower leg bone” (3) Analysis The average value of the right perplexity of the surrounding character string [•] [,] on the left of the target character string “lower leg bone”,
(4) The average value of the left-side perplexity of the right peripheral character string [ni] [fold] of the character string to be analyzed “lower leg bone”,
Each of these values is calculated.
次のステップS208は、計算されたパープレキシティから対象文字列のスコアを設定する。例えば、
(1)解析対象文字列の先頭m文字の左側のパープレキシティa、
(2)解析対象文字列の末尾m文字の右側のパープレキシティb、
(3)解析対象文字列の左側m文字の周辺文字列の集合の右側のパープレキシティの平均値c、
(4)解析対象文字列の右側m文字の周辺文字列の集合の左側のパープレキシティ平均値d、
の4つの値の最小値を対象文字列のスコアとして設定する。このように設定することで分岐数の小さい境界を有する文字列であっても抽出することができる。
なお、このスコアの設定方法は一例であり、この他の手法を用いる構成としてもよい。例えば、上記4つの値a〜dの平均をスコアとして用いる構成としてもよく、この場合には同程度の境界を有する文字列が単語として抽出されるために正確な単語が抽出されやすくなる。
The next step S208 sets the score of the target character string from the calculated perplexity. For example,
(1) Perplexity a on the left side of the first m characters of the character string to be analyzed,
(2) Perplexity b on the right side of the last m characters of the character string to be analyzed,
(3) The average value c of the right perplexity of the set of surrounding character strings of the left m characters of the character string to be analyzed,
(4) Perplexity average value d on the left side of a set of surrounding character strings of m characters on the right side of the analysis target character string.
The minimum value of these four values is set as the score of the target character string. By setting in this way, even a character string having a boundary with a small number of branches can be extracted.
Note that this score setting method is merely an example, and other methods may be used. For example, an average of the above four values a to d may be used as a score. In this case, since a character string having a similar boundary is extracted as a word, an accurate word is easily extracted.
上記4つのパープレキシティa〜dは、テキストデータベース121内での文字列の境界面でのパープレキシティを表現しており、テキストデータベース121にある程度の量のテキストが存在すれば、mの値の小さいm文字の文字列の出現頻度に関してはほとんどの場合、十分信頼性を得られる程度の計算を行うことができる。このため、4つのパープレキシティa〜dに関しては、対象文字列の出現頻度が小さい場合でも、ほとんどの場合に信頼性のある値が得られる。
The above four perplexities a to d represent the perplexity on the boundary surface of the character string in the
次のステップS209の単語判定処理は、単語判定部110の処理である。単語判定部110は、解析対象文字列のスコアをスコア設定部109から受領して、閾値設定部109から閾値[t]を受領する。閾値設定部109から受領する閾値[t]は、先に図3のフローチャートを参照して説明した閾値設定処理において設定した閾値[t]である。
The word determination process in the next step S209 is a process of the
単語判定部110は、スコア設定部109から受領した解析対象文字列のスコアが、閾値設定部109から受領する閾値t以上であれば単語として認定する。すなわち、辞書登録のない未知語としての単語として認定する。例えば、
閾値t=10.0
とした場合、上述した解析対象文字列「下腿骨」のテキストデータベース121を対象として実行したパープレキシティ算出に基づいて設定されたスコアが、
スコア=34.95
とすると、
スコア:34.95≧10.0(閾値)
上記式が成立するので、"下腿骨"を単語として認定する。
If the score of the character string to be analyzed received from the
Threshold t = 10.0
In this case, the score set based on the perplexity calculation performed on the
Score = 34.95
Then,
Score: 34.95 ≧ 10.0 (threshold)
Since the above formula is established, “lower leg bone” is recognized as a word.
ステップS210では、未処理の解析対象文字列の有無を判定して、未処理の解析対象文字列がある場合は、次の解析対象文字列を選択して、ステップS205〜S209の処理を繰り返して実行し、その解析対象文字列の単語として認定するか否かを決定する。この処理をすべての解析対象文字列に対して実行し、未処理文字列が無くなった場合は処理を終了する。 In step S210, it is determined whether or not there is an unprocessed analysis target character string. If there is an unprocessed analysis target character string, the next analysis target character string is selected, and the processes in steps S205 to S209 are repeated. And determine whether or not to recognize as a word of the character string to be analyzed. This process is executed for all the character strings to be analyzed, and the process ends when there are no more unprocessed character strings.
なお、このようにして抽出された単語は、例えば形態素解析に適用する辞書データベースに登録するなどの利用が可能である。上述した処理例では医学分野の専門用語としての単語を抽出しているので、例えば医学分野の単語辞書や、形態素解析用の専門辞書の登録語として設定することができる。このようにして抽出した単語を登録した辞書を利用して形態素解析を行なうことで、従来の辞書では抽出できなかった単語の抽出が可能となる。また、上述の処理によって抽出された単語は、例えばデータ検索に利用する単語として利用することができる。このような処理によって医学分野の知識を持たないユーザであっても、上述した処理によって得られた医学用語である単語を利用した有効なデータ検索を行なうことが可能となる。こうして得られた辞書は、本方式で抽出された文字列のみを記憶装置に記憶させて他の辞書とは別個に管理されるデータベースとしてもよいし、先に述べたように他の辞書データベースに追加してもよい。また、その文字列が本方式により抽出されたことを示す情報や、さらにその文字列のスコアを文字列に紐付けして記憶させておくことも可能であり、その場合には抽出された文字列を言語処理に利用する場合に、これらの情報に基づいて文字列の使用、例えばその文字列の採否、表示態様の変更等、を制御することができる。 The words extracted in this way can be used, for example, by registering them in a dictionary database applied to morphological analysis. In the processing example described above, a word as a technical term in the medical field is extracted. Therefore, for example, it can be set as a registered word in a word dictionary in the medical field or a specialized dictionary for morphological analysis. By performing morphological analysis using a dictionary in which words extracted in this way are registered, it is possible to extract words that cannot be extracted by a conventional dictionary. Moreover, the word extracted by the above-mentioned process can be used as a word used for data search, for example. By such processing, even a user who does not have knowledge in the medical field can perform effective data retrieval using words that are medical terms obtained by the above-described processing. The dictionary obtained in this way may be a database that stores only the character strings extracted by this method in a storage device and is managed separately from other dictionaries, or may be stored in another dictionary database as described above. May be added. It is also possible to store information indicating that the character string has been extracted by this method, and further store the character string score in association with the character string. When a column is used for language processing, use of a character string, for example, acceptance / rejection of the character string, change of a display mode, and the like can be controlled based on such information.
[本実施例による単語抽出処理の評価]
上述した本発明の一実施例に従った単語抽出処理の結果についての評価処理を実行したので、その結果について以下説明する。
(a)上述した実施例に従った処理を行った結果と、
(b)先に説明した非特許文献1(Shimohata, S. Sugio, T. Nagata, J. Retrieving collocations by co−occurrences and word order constraints. Proc. of ACL/EACL−97)に開示された単語抽出処理、すなわち、コロケーション(連語)を抽出するにあたって、連語のコーパス内でのエントロピー(情報量)を計算し、両側の単語のエントロピーが設定した閾値を越える連語を抽出する処理を実行した結果、
これらを比較した。
[Evaluation of word extraction processing according to this embodiment]
Since the evaluation process was performed on the result of the word extraction process according to the above-described embodiment of the present invention, the result will be described below.
(A) The result of performing the processing according to the above-described embodiment;
(B)
These were compared.
処理対象としたのは、
(1)「最新解剖学用語集」、
(2)「MEDIS 標準病名マスター2.4.2」(http://www.medis.or.jp/)
これらに含まれるテキストデータであり、これらのテキスト中の、約65,000件の実際の医療テキスト中での出現頻度が5以下の文字列に関して、
(a)上記実施例に従った処理を行い、スコア順に上位200の文字列を抽出してIPA辞書に含まれるものを除いた結果A、
(b)上記先行技術(非特許文献1)に記載された方法を適用した処理によって抽出された文字列のスコア順に上位200文字列を抽出してIPA辞書に含まれるものを除いた結果B、
これらの結果Aと結果Bについて、単語として成立するものを専門家である医師が確認したところ、図7に示す評価結果が得られた。
The processing target was
(1) “Latest Anatomical Glossary”,
(2) “MEDIS Standard Disease Name Master 2.4.2” (http://www.medis.or.jp/)
It is text data included in these, and regarding the character string whose appearance frequency in about 65,000 actual medical texts in these texts is 5 or less,
(A) A result obtained by performing processing according to the above-described embodiment, extracting the top 200 character strings in the order of scores, and excluding those included in the IPA dictionary,
(B) Result B obtained by extracting the top 200 character strings in the order of the score of the character strings extracted by the process applying the method described in the above prior art (Non-patent Document 1) and excluding those included in the IPA dictionary,
Regarding these results A and B, when a doctor who is an expert confirmed what was established as a word, the evaluation results shown in FIG. 7 were obtained.
図7(1)は、「最新解剖学用語集」に含まれるテキストデータに基づく本実施例と、従来手法各々の単語抽出処理結果の比較データであり、図7(2)は、「MEDIS 標準病名マスター2.4.2」に含まれるテキストデータに基づく本実施例と、従来手法各々の単語抽出処理結果の比較データである。 FIG. 7 (1) is a comparison data of the word extraction processing results of the present embodiment based on the text data included in the “latest anatomical terminology” and the conventional method, and FIG. 7 (2) is a “MEDIAS standard”. It is the comparison data of the present Example based on the text data contained in "Sick name master 2.4.2", and the word extraction processing result of each conventional method.
「正答率」とは対象の文字列の内、単語として成立するものの割合である。RRSUMはReciprocal Rank(正解となった順位の逆数)の和であり、ランキングを考慮した評価指標である。図7から明らかなように、「最新解剖学用語集」に対する処理においては、本実施例に従った処理が、従来手法に比較して、
正答率で16.8%、
RRSUMで0.29
これらの性能向上が見られ、
また、「標準病名マスター」に対する処理においては、本実施例に従った処理が、従来手法に比較して、
正答率で0.6%、
RRSUMで0.52
これらの性能向上が得られ、本発明の有効性が確認できた。
The “correct answer rate” is the proportion of the target character string that is established as a word. RR SUM is the sum of Reciprocal Ranks (the reciprocal of the correct ranking), and is an evaluation index considering ranking. As is clear from FIG. 7, in the process for the “latest anatomy glossary”, the process according to the present embodiment is compared with the conventional method.
16.8% in correct answer rate,
0.29 for RR SUM
These performance improvements are seen,
In addition, in the process for the “standard disease name master”, the process according to this example is compared with the conventional method.
0.6% correct answer rate,
0.52 for RR SUM
These performance improvements were obtained, confirming the effectiveness of the present invention.
[実施例2]
次に、本発明の言語解析システムの実施例2の処理について説明する。実施例2の言語解析システムの実行する処理フローを図8に示す。実施例2においてもシステム構成は、図1を参照して説明したシステム構成が適用される。本実施例では、テキストデータベース121に含まれるテキスト単位での処理を実行する処理例である。例えば、図2(a)を参照して説明したようにテキストデータベース121には、様々なテキストが識別子(ID)に対応付けられて格納されている。本実施例では、これらの識別子の設定された各テキスト単位で単語抽出処理を実行する。各テキスト単位で単語(例えば未知語)を取得することで、各テキストに対応する単語情報を得ることが可能となる。さらに各テキストからの抽出単語のスコア順ランキング処理などが可能となる。
[Example 2]
Next, processing of the language analysis system according to the second embodiment of the present invention will be described. FIG. 8 shows a processing flow executed by the language analysis system according to the second embodiment. In the second embodiment, the system configuration described with reference to FIG. 1 is applied as the system configuration. The present embodiment is a processing example in which processing in units of text included in the
図8に示すフローチャートを参照して本実施例の処理シーケンスを説明する。なお、図8に示す処理フロー中、ステップS302〜S311の処理は、先に図4を参照して説明した実施例1の処理フロー中のステップS201〜S210と同様の処理である。 The processing sequence of the present embodiment will be described with reference to the flowchart shown in FIG. In the process flow shown in FIG. 8, the processes in steps S302 to S311 are the same as the processes in steps S201 to S210 in the process flow of the first embodiment described above with reference to FIG.
本実施例では、まず、ステップS301において、テキストデータベース211から解析対象とする最初の1つのテキストを選択する。例えば、図2(a)に示す例では、例えば、解析対象テキストとして、最初の登録テキスト、すなわち、
ID1:両側肺野に優位な・・・
上記テキストを選択する。
In this embodiment, first, in step S301, the first one text to be analyzed is selected from the text database 211. For example, in the example shown in FIG. 2A, for example, as the analysis target text, the first registered text, that is,
ID1: Superior in bilateral lung fields
Select the text above.
次にステップS302において、選択テキストをシステムのテキスト入力部101に入力する。
次に、ステップS303において、文字列抽出部102が、入力されたテキストを改行・句点等の区切り記号で分割し、分割された各テキストから取りえる全ての部分文字列を抽出する。
次に、ステップS304において、文字列フィルタリング部103において、文字列フィルタリング処理を実行する。この処理は、先に実施例1において説明したように、
(1)基本的に日本語の単語にはなりえない文字列、
(2)既に辞書に登録されている単語、
(3)テキストデータベース121に格納されたテキスト内での出現頻度の大きい文字列、
これらの文字列を削除する処理として実行される。
In step S302, the selected text is input to the
Next, in step S303, the character
Next, in step S304, the character
(1) Character strings that cannot basically be Japanese words,
(2) words already registered in the dictionary,
(3) a character string having a high appearance frequency in the text stored in the
This process is executed to delete these character strings.
次にステップS305で、ステップS304において選択された解析対象文字列集合から最初の文字列を解析対象文字列として取得し、ステップS306において、先頭・末尾文字列抽出部104が、対象文字列の先頭および末尾のm文字を抽出する。mは1以上の予め設定された値である。
Next, in step S305, the first character string is acquired as the analysis target character string from the analysis target character string set selected in step S304. In step S306, the head / end character
次のステップS307は、周辺文字列取得部105の処理であり、テキストデータベース121に格納されたテキストデータを対象とした解析処理により、対象文字列の周辺に現れる、m文字の周辺文字列の集合を抽出する。
次のステップS308は、分岐数算出部(パープレキシティ算出部)106の処理であり、ステップS307の周辺文字列抽出処理において抽出された、解析対象文字列を含む文書を構成する
解析対象文字列の先頭・末尾文字列、および
解析対象文字列の左右の周辺文字列、
これらの文字列集合の、テキストデータベース121に格納されたテキストデータ内でのパープレキシティを計算する。具体的には、
(1)解析対象文字列の先頭文字列の左側パープレキシティ
(2)解析対象文字列の末尾文字列の右側パープレキシティ
(3)解析対象文字列の左の周辺文字列の右側パープレキシティの平均値、
(4)解析対象文字列の右の周辺文字列の左側パープレキシティの平均値、
これらの各値を算出する。
The next step S307 is a process of the peripheral character
The next step S308 is processing of the branch number calculation unit (perplexity calculation unit) 106, and constitutes a document including the analysis target character string extracted in the surrounding character string extraction processing of step S307. First and last character strings, and the left and right surrounding character strings of the analysis target character string,
The perplexity in the text data stored in the
(1) The left perplexity of the first character string of the analysis target character string (2) The right perplexity of the last character string of the analysis target character string (3) The right perplexity of the peripheral character string to the left of the analysis target character string The average value of
(4) The average value of the left perplexity of the surrounding character string to the right of the analysis target character string,
Each of these values is calculated.
次のステップS309は、スコア設定部108の処理である。スコア設定部108は、計算されたパープレキシティから対象文字列のスコアを設定する。例えば、
(1)解析対象文字列の先頭m文字の左側のパープレキシティa、
(2)解析対象文字列の末尾m文字の右側のパープレキシティb、
(3)解析対象文字列の左側m文字の周辺文字列の集合の右側のパープレキシティの平均値c、
(4)解析対象文字列の右側m文字の周辺文字列の集合の左側のパープレキシティ平均値d、
これらの4つの値a〜dの最小値を対象文字列のスコアとして設定する。なお、先に図5、図6を参照して説明した処理例はm=1の場合である。
The next step S309 is processing of the
(1) Perplexity a on the left side of the first m characters of the character string to be analyzed,
(2) Perplexity b on the right side of the last m characters of the character string to be analyzed,
(3) The average value c of the right perplexity of the set of surrounding character strings of the left m characters of the character string to be analyzed,
(4) Perplexity average value d on the left side of a set of surrounding character strings of m characters on the right side of the analysis target character string.
The minimum value of these four values a to d is set as the score of the target character string. The processing example described above with reference to FIGS. 5 and 6 is a case where m = 1.
次のステップS310の単語判定処理は、単語判定部110の処理である。単語判定部110は、解析対象文字列のスコアをスコア設定部109から受領して、閾値設定部109から閾値[t]を受領する。閾値設定部109から受領する閾値[t]は、先に図3のフローチャートを参照して説明した閾値設定処理において設定した閾値[t]である。
The word determination process in the next step S310 is a process of the
単語判定部110は、スコア設定部109から受領した解析対象文字列のスコアが、閾値設定部109から受領する閾値t以上であれば単語として認定する。すなわち、辞書登録のない未知語としての単語として認定する。
If the score of the character string to be analyzed received from the
次に、ステップS311では、未処理の解析対象文字列の有無を判定して、未処理の解析対象文字列がある場合は、次の解析対象文字列を選択して、ステップS306〜S310の処理を繰り返して実行し、その解析対象文字列の単語として認定するか否かを決定する。この処理をすべての解析対象文字列に対して実行し、未処理文字列が無くなった場合は、ステップS312に進む。 Next, in step S311, the presence / absence of an unprocessed analysis target character string is determined. If there is an unprocessed analysis target character string, the next analysis target character string is selected, and the processing in steps S306 to S310 is performed. Is repeatedly executed, and it is determined whether or not it is recognized as a word of the analysis target character string. This process is executed for all the character strings to be analyzed, and if there is no unprocessed character string, the process proceeds to step S312.
ステップS312では、未処理の解析対象テキストがテキストデータベース121にあるか否かを判定し、未処理の解析対象テキストがテキストデータベース121にある場合は、次の解析対象テキストを選択して、ステップS302〜S311の処理を繰り返して実行する。この処理をすべての解析対象テキストに対して実行し、未処理テキストが無くなった場合は、処理を終了する。
In step S312, it is determined whether or not unprocessed analysis target text exists in the
本処理例では、テキストデータベース121に格納された識別子の設定された各テキスト単位で単語抽出処理を実行する。このように、各テキスト単位で単語(例えば未知語)を取得することで、各テキストに対応する単語情報を得ることが可能となる。さらに各テキストからの抽出単語のスコア順ランキング処理などが可能となる。
In this processing example, word extraction processing is executed for each text unit in which identifiers stored in the
なお、本処理例においても、抽出された単語は、例えば専門分野の単語辞書や、形態素解析用の専門辞書の登録語として設定することができる。このようにして抽出した単語を登録した辞書を利用して形態素解析を行なうことで、従来の辞書では抽出できなかった単語の抽出が可能となり、また、抽出単語をデータ検索に利用する単語として利用することができる。このような処理によって専門分野の知識を持たないユーザであっても、上述した処理によって得られた専門用語である単語を利用した有効なデータ検索を行なうことが可能となる。 Also in this processing example, the extracted words can be set, for example, as registered words in a specialized word dictionary or a specialized dictionary for morphological analysis. By performing morphological analysis using a dictionary in which extracted words are registered in this way, it becomes possible to extract words that could not be extracted by conventional dictionaries, and use extracted words as words used for data retrieval can do. By such processing, even a user who does not have knowledge in a specialized field can perform effective data retrieval using words that are technical terms obtained by the above-described processing.
[実施例3]
次に、図9を参照して本発明の言語解析システムの実施例3について説明する。上述した実施例1,2では、例えば図1のシステム構成における先頭・末尾文字列抽出部104が、解析対象文字列を含む文書を構成する以下のデータ、すなわち、
解析対象文字列の先頭・末尾のm文字の文字列、および、
解析対象文字列の左右の周辺のm文字の文字列、
これらのm文字の文字列集合に対して、テキストデータベース121に格納されたテキストデータ内でのパープレキシティを計算する構成としていた。
[Example 3]
Next, Embodiment 3 of the language analysis system of the present invention will be described with reference to FIG. In the first and second embodiments described above, for example, the head / end character
A string of m characters at the beginning and end of the string to be analyzed, and
A string of m characters around the left and right of the string to be analyzed,
The perplexity in the text data stored in the
すなわち、上述した実施例1,2では、
(1)解析対象文字列の先頭のm文字の文字列の左側パープレキシティ
(2)解析対象文字列の末尾のm文字の文字列の右側パープレキシティ
(3)解析対象文字列の左の周辺m文字の文字列の右側パープレキシティの平均値、
(4)解析対象文字列の右の周辺m文字の文字列の左側パープレキシティの平均値、
これらの各値を算出する構成としていた。
That is, in the first and second embodiments described above,
(1) Left-side perplexity of the first m characters of the character string to be analyzed (2) Right-side perplexity of the last m characters of the character string to be analyzed (3) Left of the character string to be analyzed The average value of the right perplexity of the surrounding m character string,
(4) The average value of the left perplexity of the character string of the surrounding m characters to the right of the analysis target character string,
These values were calculated.
実施例3では、図1に示す先頭・末尾文字列抽出部104を図9に示すように部分文字列抽出部301に置きかえている。部分文字列抽出部301では、解析対象文字列の先頭、末尾の文字列のみならず、解析対象文字列を構成するm文字の部分文字列をすべて抽出して、抽出したm文字の部分文字列に対応するパープレキシティを算出する。
In the third embodiment, the head / end character
先の実施例1,2では、例えばm=1とした場合、先頭・末尾文字列抽出部104が、対象文字列の先頭および末尾のm=1文字を抽出し、解析対象文字列が"下腿骨"だとすれば、先頭の"下"と末尾の"骨"を抽出していた。
これに対して本実施例では、m=1とした場合、部分文字列抽出部301が、対象文字列のm=1文字からなるすべての部分文字列を抽出する。解析対象文字列が"下腿骨"だとすれば、先頭の"下"と末尾の"骨"、さらに、中央の"腿"を抽出する。
In the first and second embodiments, when m = 1, for example, the head / end character
On the other hand, in this embodiment, when m = 1, the partial character
分岐数算出部(パープレキシティ算出部)106では、部分文字列抽出部301が抽出した文字列に対応するパープレキシティを算出する。例えば、m=1で、解析対象文字列が"下腿骨"の場合、先に実施例1において図5、図6を参照して説明した解析対象文字列の境界におけるパープレキシティを算出するとともに、図10に示すように、
(a)"下" の右側のパープレキシティ、
(b)"腿"の右側および左側のパープレキシティ、
(c)"骨"の左側のパープレキシティ、
これらのパープレキシティについても算出する。
The branch number calculation unit (perplexity calculation unit) 106 calculates perplexity corresponding to the character string extracted by the partial character
(A) Perplexity on the right side of “below”,
(B) The right and left perplexity of the “thigh”,
(C) Perplexity on the left side of “bone”,
These perplexities are also calculated.
さらに、内部スコア設定部302では、
(1)"下"と"腿"の右側のパープレキシティの平均、
(2)"腿"と"骨"の左側のパープレキシティの平均、
これらの平均値をそれぞれ計算し、これらの平均値の最大値を内部スコアとして設定する。
Furthermore, in the internal
(1) The average perplexity on the right side of “bottom” and “thigh”,
(2) The average perplexity on the left of “thigh” and “bone”
Each of these average values is calculated, and the maximum value of these average values is set as the internal score.
スコア設定部108では、先の実施例1と同様に、図5、図6を参照して説明した解析対象文字列の境界におけるパープレキシティ、すなわち、
(1)解析対象文字列の先頭m文字の左側のパープレキシティa、
(2)解析対象文字列の末尾m文字の右側のパープレキシティb、
(3)解析対象文字列の左側m文字の周辺文字列の集合の右側のパープレキシティの平均値c、
(4)解析対象文字列の右側m文字の周辺文字列の集合の左側のパープレキシティ平均値d、
これらの4つの値a〜dの最小値を対象文字列の境界スコア[S]として設定する。なお、先に図5、図6を参照して説明した処理例はm=1の場合である。
In the
(1) Perplexity a on the left side of the first m characters of the character string to be analyzed,
(2) Perplexity b on the right side of the last m characters of the character string to be analyzed,
(3) The average value c of the right perplexity of the set of surrounding character strings of the left m characters of the character string to be analyzed,
(4) Perplexity average value d on the left side of a set of surrounding character strings of m characters on the right side of the analysis target character string.
The minimum value of these four values a to d is set as the boundary score [S] of the target character string. The processing example described above with reference to FIGS. 5 and 6 is a case where m = 1.
単語判定部110は、スコア設定部108で設定された境界スコア[S]と、内部スコア設定部302で設定された内部スコア[SIN]を比較し、境界スコア[S]が内部スコア[SIN]より大きい場合は、単語として認定する。すなわち、辞書登録のない未知語としての単語として認定する。
The
本構成によれば、解析対象文字列の部分文字列を抽出して内部スコア[SIN]を計算し、境界面スコア[S]と比較することにより、対象文字列の特性をより強く反映した未知語の抽出が可能となる。 According to this configuration, the partial character string of the analysis target character string is extracted, the internal score [SIN] is calculated, and compared with the boundary surface score [S], the unknown that more strongly reflects the characteristics of the target character string It is possible to extract words.
なお、本処理例においても、抽出された単語は、例えば専門分野の単語辞書や、形態素解析用の専門辞書の登録語として設定することができる。このようにして抽出した単語を登録した辞書を利用して形態素解析を行なうことで、従来の辞書では抽出できなかった単語の抽出が可能となり、また、抽出単語をデータ検索に利用する単語として利用することができる。このような処理によって専門分野の知識を持たないユーザであっても、上述した処理によって得られた専門用語である単語を利用した有効なデータ検索を行なうことが可能となる。 Also in this processing example, the extracted words can be set, for example, as registered words in a specialized word dictionary or a specialized dictionary for morphological analysis. By performing morphological analysis using a dictionary in which extracted words are registered in this way, it becomes possible to extract words that could not be extracted by conventional dictionaries, and use extracted words as words used for data retrieval can do. By such processing, even a user who does not have knowledge in a specialized field can perform effective data retrieval using words that are technical terms obtained by the above-described processing.
なお、上述の実施例では、部分文字列抽出部301の処理として、m=1として解析対象文字列を構成するm=1文字の部分文字列をすべて抽出して、抽出したm=1文字の部分文字列に対応するパープレキシティを算出する構成としたが、mは1以上の様々な値に設定することができる。例えば文字の種類(漢字、ひらがな、カタカナ、英数字など)に応じてmの値を変更する構成とすることができる。このように、文字種によってmの値を変更することにより、文字種による情報量の違いに対応できる。例えば、漢字ではm=1、ひらがな・カタカナ・英数字ではm=2にすることにより、漢字の情報量を平仮名・片仮名・英数字の2倍として扱うことができる。なお、解析対象文字列の先頭、末尾、左側、右側におけるそれぞれ抽出する文字数mを異ならせてもよい。ただし、これらの評価値を組みあせてスコアを設定する場合には、同じ文字数としないと条件の異なる評価値が組み合わされてしまうので、同じとすることが望ましい。
In the above-described embodiment, as the processing of the partial character
また、上述の実施例では、解析対象文字列の境界における出現文字列の分岐状態を表す評価値として、数2で示すパープレキシティ(平均分岐数)を用いる例を述べたが、出現文字列の多様性の評価値としては、たとえば、言語解析の評価指標として用いられている、エントロピー(数1)を用いることもでき、またシステムの動作に適するように、これらの数式を所定倍、規格化、所定の変換式を用いて演算することで、評価値として用いることもできる。あるいは対象文字列の前後での文字列の出現回数に基づく多様性の評価値を所定の演算式を施すことで求め、この演算結果を評価値として使用することもできる。ただし、パープレキシティは、多様性を示す値として言語処理の分野では慣用されていることから、エントロピーを指標として用いる場合に比べて、単語抽出する場合の条件設定や調整において妥当な設定を行いやすく、システムとして運用がしやすくなる。
Further, in the above-described embodiment, the example in which the perplexity (average branch number) represented by
最後に、上述した処理を実行する言語解析システムを構成する情報処理装置のハードウェア構成例について、図11を参照して説明する。CPU(Central Processing Unit)501は、OS(Operating System)に対応する処理や、上述の実施例において説明したパープレキシティ算出処理、スコア算出処理、単語抽出処理、抽出した単語を登録した辞書の生成処理、生成した辞書を適用した形態素解析処理などを実行する。これらの処理は、各情報処理装置のROM、ハードディスクなどのデータ記憶部に格納されたコンピュータ・プログラムに従って実行される。 Finally, a hardware configuration example of the information processing apparatus that configures the language analysis system that executes the above-described processing will be described with reference to FIG. A CPU (Central Processing Unit) 501 performs processing corresponding to an OS (Operating System), perplexity calculation processing, score calculation processing, word extraction processing described in the above-described embodiment, and generation of a dictionary in which extracted words are registered. Processing, morphological analysis processing using the generated dictionary, etc. are executed. These processes are executed according to a computer program stored in a data storage unit such as a ROM or a hard disk of each information processing apparatus.
ROM(Read Only Memory)502は、CPU501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)503は、CPU501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス504により相互に接続されている。
A ROM (Read Only Memory) 502 stores programs used by the
ホストバス504は、ブリッジ505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス506に接続されている。
The
キーボード508、ポインティングデバイス509は、ユーザにより操作される入力デバイスである。ディスプレイ510は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージで表示する。
A
HDD(Hard Disk Drive)511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU501によって実行するプログラムや情報を記録または再生させる。ハードディスクは、例えば上述の実施例において説明した単語抽出によって抽出された単語や、単語を登録した辞書、さらに、上述の実施例において適用するデータ処理プログラム、閾値、スコア等のパラメータや、各種コンピュータ・プログラムが格納される。
An HDD (Hard Disk Drive) 511 includes a hard disk, drives the hard disk, and records or reproduces a program executed by the
ドライブ512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体521に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース507、外部バス506、ブリッジ505、およびホストバス504を介して接続されているRAM503に供給する。
The
接続ポート514は、外部接続機器522を接続するポートであり、USB,IEEE1394等の接続部を持つ。接続ポート514は、インタフェース507、および外部バス506、ブリッジ505、ホストバス504等を介してCPU501等に接続されている。通信部515は、ネットワークに接続され、各種データベースや他の情報処理装置との通信を実行する。
The
なお、図11に示す言語解析システムとしての情報処理装置のハードウェア構成例は、PCを適用して構成した装置の一例であり、本発明の言語解析システムは、図11に示す構成に限らず、上述した実施例において説明した処理を実行可能な構成であればよい。 Note that the hardware configuration example of the information processing apparatus as the language analysis system shown in FIG. 11 is an example of an apparatus configured by applying a PC, and the language analysis system of the present invention is not limited to the configuration shown in FIG. Any configuration capable of executing the processing described in the above-described embodiments may be used.
以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。 The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiments without departing from the gist of the present invention. In other words, the present invention has been disclosed in the form of exemplification, and should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims should be taken into consideration.
なお、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。 The series of processes described in the specification can be executed by hardware, software, or a combined configuration of both. When executing processing by software, the program recording the processing sequence is installed in a memory in a computer incorporated in dedicated hardware and executed, or the program is executed on a general-purpose computer capable of executing various processing. It can be installed and run.
例えば、プログラムは記録媒体としてのハードディスクやROM(Read Only Memory)に予め記録しておくことができる。あるいは、プログラムはフレキシブルディスク、CD−ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することができる。 For example, the program can be recorded in advance on a hard disk or ROM (Read Only Memory) as a recording medium. Alternatively, the program is temporarily or permanently stored on a removable recording medium such as a flexible disk, a CD-ROM (Compact Disc Read Only Memory), an MO (Magneto optical) disk, a DVD (Digital Versatile Disc), a magnetic disk, or a semiconductor memory. It can be stored (recorded). Such a removable recording medium can be provided as so-called package software.
なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。 The program is installed on the computer from the removable recording medium as described above, or is wirelessly transferred from the download site to the computer, or is wired to the computer via a network such as a LAN (Local Area Network) or the Internet. The computer can receive the program transferred in this manner and install it on a recording medium such as a built-in hard disk.
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 Note that the various processes described in the specification are not only executed in time series according to the description, but may be executed in parallel or individually according to the processing capability of the apparatus that executes the processes or as necessary. Further, in this specification, the system is a logical set configuration of a plurality of devices, and the devices of each configuration are not limited to being in the same casing.
100 言語解析システム
101 テキスト入力部
102 文字列抽出部
103 文字列フィルタ部
104 先頭・末尾文字列抽出部
105 周辺文字列抽出部
106 分岐数算出部(パープレキシティ算出部)
107 単語分割部
108 スコア設定部
109 閾値設定部
110 単語判定部
121 テキストデータベース
122 単語データベース
301 部分文字列抽出部
302 内部スコア設定部
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
DESCRIPTION OF
DESCRIPTION OF
502 ROM (Read-Only-Memory)
503 RAM (Random Access Memory)
504
512
Claims (11)
テキストデータベース内のテキストデータから、前記文字列抽出部が抽出した文字列を解析対象文字列として、当該解析対象文字列の境界における出現文字列のパープレキシティに基づいて当該解析対象文字列が単語である蓋然性を示すスコアを算出・設定するスコア設定部と、
前記スコア設定部の設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定部と、
を有することを特徴とする言語解析システム。 A character string extraction unit that extracts a set of character strings having a predetermined number of characters or less from text data;
From the text data in a text database, a character string where the character string extraction unit and extracted as an analysis target character string, the parsed character string word based on perplexity occurred string at the boundary of the analyzed text A score setting unit that calculates and sets a score indicating the probability of being ,
A word determination unit that determines whether or not the analysis target character string is a word based on the score set by the score setting unit;
A language analysis system comprising:
前記解析対象文字列の両端部のそれぞれ1文字以上における解析対象文字列の外方向の出現文字列のパープレキシティと、
前記解析対象文字列に接する両端部のそれぞれ1文字以上における解析対象文字列方向の出現文字列のパープレキシティと、
を算出し、
前記算出した2種類のパープレキシティに基づいてスコアを算出する構成であることを特徴とする請求項1に記載の言語解析システム。 The score setting unit
The perplexity of the appearance character string in the outward direction of the analysis target character string in each of one or more characters at both ends of the analysis target character string;
The perplexity of the appearance character string in the direction of the analysis target character string in each of one or more characters at both ends in contact with the analysis target character string;
Is calculated,
The language analysis system according to claim 1, wherein a score is calculated based on the two types of calculated perplexities .
前記2種類のパープレキシティ
のうちの最小値に基づいてスコアを算出する構成であることを特徴とする請求項2に記載の言語解析システム。 The score setting unit
The language analysis system according to claim 2, wherein a score is calculated based on a minimum value of the two types of perplexities .
単語データベース内に登録された単語をm文字(ただしm≧1の予め定めた数)単位で分割する単語分割部と、
前記単語分割部の分割したm文字単位の文字列に対応する解析対象文字列の境界における出現文字列のパープレキシティをそれぞれ算出し、当該算出したそれぞれのパープレキシティから、m文字単位の文字列端部の外部方向の出現文字列のパープレキシティを除く複数のパープレキシティについて平均値を算出し、当該平均値を閾値として算出する閾値設定部とを有し、
前記単語判定部は、
前記スコア設定部の設定したスコアと、前記閾値設定部の設定した閾値との比較を実行して、比較結果に応じて前記解析対象文字列が単語であるとの判定を行なう構成であることを特徴とする請求項1に記載の言語解析システム。 The language analysis system further includes:
A word dividing unit that divides words registered in the word database into units of m characters (however, a predetermined number of m ≧ 1);
The perplexity of the occurred string at the boundary of the parsed character string corresponding to the character string of the divided m characters, of the previous SL word dividing section and calculated, respectively and the calculated from perplexity, the m character units A threshold value setting unit that calculates an average value for a plurality of perplexities excluding the perplexity of the appearance character string in the external direction at the end of the character string, and calculates the average value as a threshold value,
The word determination unit
Comparing the score set by the score setting unit with the threshold set by the threshold setting unit, and determining that the analysis target character string is a word according to the comparison result The language analysis system according to claim 1, wherein:
前記文字列抽出部の抽出した文字列の集合から、単語として成立しない文字列を削除するフィルタリング処理を実行する文字列フィルタ部を有し、
前記スコア設定部は、
前記文字列フィルタ部におけるフィルタリング後の文字列を解析対象文字列として、スコアを算出・設定する構成であることを特徴とする請求項1に記載の言語解析システム。 The language analysis system further includes:
A character string filter unit that executes a filtering process to delete a character string that does not hold as a word from the set of character strings extracted by the character string extraction unit;
The score setting unit
The language analysis system according to claim 1, wherein the score is calculated and set using the character string after filtering in the character string filter unit as an analysis target character string.
前記文字列抽出部の抽出した抽出文字列から、抽出文字列の先頭および末尾文字列を抽出する先頭末尾文字列抽出部を有し、
前記スコア設定部は、
前記先頭末尾文字列抽出部の抽出した先頭末尾文字列に基づいて、前記解析対象文字列の境界における出現文字列のパープレキシティの算出を実行する構成であることを特徴とする請求項1に記載の言語解析システム。 The language analysis system further includes:
From the extracted character string extracted by the character string extracting unit, a leading and trailing character string extracting unit that extracts the leading and trailing character strings of the extracted character string,
The score setting unit
2. The configuration according to claim 1, wherein the perplexity of an appearance character string at a boundary of the analysis target character string is calculated based on the head / end character string extracted by the head / end character string extraction unit. The language analysis system described.
前記文字列抽出部の抽出した抽出文字列から、抽出文字列の部分文字列を抽出する部分文字列抽出部と、
前記部分文字列抽出部の抽出した部分文字列に基づいて、前記解析対象文字列の内部における出現文字列のパープレキシティの算出を実行し、当該パープレキシティに基づいて内部スコアを設定する内部スコア設定部とを有し、前記単語判定部は、
前記スコア設定部の設定したスコアと、前記内部スコア設定部が設定した内部スコアとに基づいて前記解析対象文字列が単語であるか否かを判定する処理を実行する構成であることを特徴とする請求項1に記載の言語解析システム。 The language analysis system further includes:
A partial character string extraction unit that extracts a partial character string of the extracted character string from the extracted character string extracted by the character string extraction unit ;
Based on the partial character string extracted by the partial character string extraction unit , the calculation of the perplexity of the appearance character string within the analysis target character string is performed , and an internal score is set based on the perplexity A score setting unit, the word determination unit,
It is configured to execute a process of determining whether or not the analysis target character string is a word based on the score set by the score setting unit and the internal score set by the internal score setting unit. The language analysis system according to claim 1.
テキストデータベースに格納されたテキスト単位で単語抽出処理を実行する構成であることを特徴とする請求項1に記載の言語解析システム。 The language analysis system includes:
The language analysis system according to claim 1, wherein the word extraction process is executed in units of text stored in a text database.
文字列抽出部が、テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出ステップと、
スコア設定部が、テキストデータベース内のテキストデータを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、当該解析対象文字列の境界における出現文字列のパープレキシティに基づいて当該解析対象文字列が単語である蓋然性を示すスコアを算出・設定するスコア設定ステップと、
単語判定部が、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定ステップと、
を有することを特徴とする言語解析方法。 A language analysis method for executing language analysis processing in a language analysis system,
A character string extraction step in which the character string extraction unit extracts a set of character strings having a predetermined number of characters or less from the text data;
Score setting unit, the analysis processing for the text data in the text database, a character string extracted in the character string extraction step as an analysis target character string, the occurred string at the boundary of the parsed string Papurekishi A score setting step for calculating and setting a score indicating the probability that the analysis target character string is a word based on the tee ;
A word determination step in which a word determination unit determines whether or not the analysis target character string is a word based on the score set in the score setting step;
A language analysis method characterized by comprising:
文字列抽出部に、テキストデータから予め定めた文字数以下の文字列の集合を抽出させる文字列抽出ステップと、
スコア設定部に、テキストデータベース内のテキストデータを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、当該解析対象文字列の境界における出現文字列のパープレキシティに基づいて当該解析対象文字列が単語である蓋然性を示すスコアを算出・設定させるスコア設定ステップと、
単語判定部に、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定させる単語判定ステップと、
を実行させることを特徴とするコンピュータ・プログラム。 A computer program that executes language analysis processing in a language analysis system,
A character string extraction step for causing the character string extraction unit to extract a set of character strings having a predetermined number of characters or less from the text data;
The score setting unit, the analysis processing for the text data in the text database, a character string extracted in the character string extraction step as an analysis target character string, the occurred string at the boundary of the parsed string Papurekishi A score setting step for calculating and setting a score indicating the probability that the analysis target character string is a word based on the tee ;
A word determination step for causing a word determination unit to determine whether or not the analysis target character string is a word based on the score set in the score setting step;
A computer program for executing
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007000070A JP5239161B2 (en) | 2007-01-04 | 2007-01-04 | Language analysis system, language analysis method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007000070A JP5239161B2 (en) | 2007-01-04 | 2007-01-04 | Language analysis system, language analysis method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008165675A JP2008165675A (en) | 2008-07-17 |
JP5239161B2 true JP5239161B2 (en) | 2013-07-17 |
Family
ID=39695044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007000070A Expired - Fee Related JP5239161B2 (en) | 2007-01-04 | 2007-01-04 | Language analysis system, language analysis method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5239161B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411563B (en) * | 2010-09-26 | 2015-06-17 | 阿里巴巴集团控股有限公司 | Method, device and system for identifying target words |
JP6972653B2 (en) * | 2017-05-16 | 2021-11-24 | 富士通株式会社 | Analysis program, analysis method and analysis device |
JPWO2022185361A1 (en) * | 2021-03-01 | 2022-09-09 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249922A (en) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | Word division system and device |
JP3628245B2 (en) * | 2000-09-05 | 2005-03-09 | 日本電信電話株式会社 | Language model generation method, speech recognition method, and program recording medium thereof |
JP2006139686A (en) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | Word extraction method, device and program |
-
2007
- 2007-01-04 JP JP2007000070A patent/JP5239161B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008165675A (en) | 2008-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9244908B2 (en) | Generation of a semantic model from textual listings | |
JP2021007031A (en) | Automatic identification and extraction of medical condition and fact from electronic medical treatment record | |
US20150100308A1 (en) | Automated Formation of Specialized Dictionaries | |
WO2017177809A1 (en) | Word segmentation method and system for language text | |
WO2022160454A1 (en) | Medical literature retrieval method and apparatus, electronic device, and storage medium | |
CN110020005B (en) | Method for matching main complaints in medical records with symptoms in current medical history | |
JP2005043977A (en) | Method and device for calculating degree of similarity between documents | |
JP5239161B2 (en) | Language analysis system, language analysis method, and computer program | |
US7912703B2 (en) | Unsupervised stemming schema learning and lexicon acquisition from corpora | |
KR101375221B1 (en) | A clinical process modeling and verification method | |
JP2015194919A (en) | Document summarization device, document summarization method, and program | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
CN111339778B (en) | Text processing method, device, storage medium and processor | |
JP5869948B2 (en) | Passage dividing method, apparatus, and program | |
Siklósi et al. | Detection and expansion of abbreviations in Hungarian clinical notes | |
JP5151449B2 (en) | Document analysis apparatus, document analysis method, and computer program | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
CN114446422A (en) | Medical record marking method, system and corresponding equipment and storage medium | |
JPH11143902A (en) | Similar document retrieval method using n-gram | |
JPWO2009113289A1 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
JP7117168B2 (en) | Information processing device and information processing method | |
JP5214985B2 (en) | Text segmentation apparatus and method, program, and computer-readable recording medium | |
JP4985096B2 (en) | Document analysis system, document analysis method, and computer program | |
JP2009104296A (en) | Related keyword extraction method, device, program, and computer readable recording medium | |
JP2009140113A (en) | Dictionary editing device, dictionary editing method, and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130318 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5239161 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |