JP2008165675A - 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム - Google Patents
言語解析システム、および言語解析方法、並びにコンピュータ・プログラム Download PDFInfo
- Publication number
- JP2008165675A JP2008165675A JP2007000070A JP2007000070A JP2008165675A JP 2008165675 A JP2008165675 A JP 2008165675A JP 2007000070 A JP2007000070 A JP 2007000070A JP 2007000070 A JP2007000070 A JP 2007000070A JP 2008165675 A JP2008165675 A JP 2008165675A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- evaluation value
- word
- unit
- analysis target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 230
- 238000004590 computer program Methods 0.000 title claims description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 92
- 238000000605 extraction Methods 0.000 claims abstract description 88
- 238000012545 processing Methods 0.000 claims description 91
- 238000000034 method Methods 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 64
- 230000008569 process Effects 0.000 claims description 64
- 239000000284 extract Substances 0.000 claims description 24
- 238000001914 filtration Methods 0.000 claims description 14
- 230000000877 morphologic effect Effects 0.000 abstract description 16
- 210000000988 bone and bone Anatomy 0.000 description 42
- 210000001699 lower leg Anatomy 0.000 description 32
- 238000007796 conventional method Methods 0.000 description 10
- 210000003128 head Anatomy 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 8
- 210000000689 upper leg Anatomy 0.000 description 7
- 230000010365 information processing Effects 0.000 description 4
- 206010061599 Lower limb fracture Diseases 0.000 description 3
- 241000406668 Loxodonta cyclotis Species 0.000 description 3
- 210000003484 anatomy Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 210000001165 lymph node Anatomy 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000002344 surface layer Substances 0.000 description 3
- 210000003462 vein Anatomy 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010017076 Fracture Diseases 0.000 description 1
- 208000003098 Ganglion Cysts Diseases 0.000 description 1
- 206010019114 Hand fracture Diseases 0.000 description 1
- 208000005400 Synovial Cyst Diseases 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 210000002478 hand joint Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003254 palate Anatomy 0.000 description 1
- 210000005037 parasympathetic nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000003786 sclera Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】テキスト解析による単語の抽出を行なう構成において、テキスト内から抽出される文字列に対応する分岐状態の評価値として例えば分岐数(パープレキシティ)を算出し、分岐数(パープレキシティ)をスコアとして設定し、スコアに基づいて単語であるか否かの判定を行なう。例えば、文字列の境界におけるパープレキシティを算出して、算出値に基づいて、文字列が単語であるか否かを決定する。本構成により、例えば形態素解析用の辞書等の辞書に登録されていない単語の抽出が可能となる。
【選択図】図1
Description
テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出部と、
テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出部の抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出部と、
前記分岐状態評価値算出部の算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定部と、
前記スコア設定部の設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定部と、
を有することを特徴とする言語解析システムにある。
言語解析システムによるテキスト解析に基づいて抽出された単語データを登録した辞書であり、
前記言語解析システムに、
テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出部と、
テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出部の抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出部と、
前記分岐状態評価値算出部の算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定部と、
前記スコア設定部の設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定部と、
を有し、
前記単語判定部において単語として判定された単語データを登録データとして有する辞書にある。
言語解析システムにおいて言語解析処理を実行する言語解析方法であり、
文字列抽出部が、テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出ステップと、
分岐数算出部が、テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出ステップと、
スコア設定部が、前記分岐状態評価値算出ステップで算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定ステップと、
単語判定部が、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定ステップと、
を有することを特徴とする言語解析方法にある。
言語解析システムにおいて言語解析処理を実行させるコンピュータ・プログラムであり、
文字列抽出部に、テキストデータから予め定めた文字数以下の文字列の集合を抽出させる文字列抽出ステップと、
分岐数算出部に、テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出させる分岐状態評価値算出ステップと、
スコア設定部に、前記分岐状態評価値算出ステップで算出した評価値に基づいて解析対象文字列に対応するスコアを設定させるスコア設定ステップと、
単語判定部に、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定させる単語判定ステップと、
を実行させることを特徴とするコンピュータ・プログラムにある。
請求項2記載の発明によれば、抽出される文字列の境界をより正確に判定できることから、単語としてより正当な文字列が抽出できる。
請求項3記載の発明によれば、さらに出現文字列の分岐状態の多様性が小さい境界が文字列の端部やこの端部に隣接している場合であっても、単語としてより正当な文字列を抽出することができる。
請求項4記載の発明によれば、所定文字数で分割された文字列に関する閾値がより妥当に設定されるようになる。
請求項5記載の発明によれば、不要な分岐状態の評価処理が低減される。
請求項6記載の発明によれば、文字列の抽出を、単語の区切り位置を判断するのに妥当性の高い、文字列の境界における分岐状態に基づいて評価することができる。
請求項7記載の発明によれば、文字列の抽出を、抽出文字列の部分文字列が内部に存在するかどうかに基づいて評価することができる。
請求項8記載の発明によれば、所定数の単語が登録された辞書と比べて、入手が容易で情報量も豊富なテキストを用いることができるので広い分野に適用可能で、また出現頻度の少ない単語としてより正当な文字列の抽出が可能となる。
請求項9記載の発明によれば、文字列抽出に関わる条件設定や調整が容易なシステムを提供できる。
請求項10記載の発明によれば、これまで登録されていなかった文字列を辞書の登録語として利用できるようになる。
請求項11記載の発明によれば、辞書に登録された単語を用いて登録されていない単語を抽出する手法と比較して、出現頻度が少なくても単語としてより正当な文字列を抽出することができる。
請求項12記載の発明によれば、辞書に登録された単語を用いて登録されていない単語を抽出する手法と比較して、出現頻度が少なくても単語としてより正当な文字列を抽出することができるコンピュータ・プログラムを提供できる。
図1を参照して、本発明の一実施形態に係る言語解析システムの構成および処理について説明する。図1に示すように本発明の一実施形態に係る言語解析システム100は、テキスト入力部101、文字列抽出部102、文字列フィルタ部103、先頭・末尾文字列抽出部104、周辺文字列抽出部105、分岐数算出部106、単語分割部107、スコア設定部108、閾値設定部109、単語判定部110、さらにテキストデータベース121、単語データベース122を有する。
図1に示す本実施例に係る言語解析システム100を適用したテキストからの単語抽出処理に際しては、まず、単語データベース122に登録された単語に基づく閾値設定処理を実行する。この処理は、図1に示す言語解析システム100の単語分割部107、分岐数算出部106、閾値設定部109の処理として実行される。本実施例における分岐状態の評価値としては、分岐数の指標であるパープレキシティを用いる。文字列のパープレキシティの計算方法は、例えば、北研二.確率的言語モデル.東京大学出版会,1999」等に詳細が記載されている。まず、この閾値設定処理について、図3に示すフローチャートを参照して説明する。
[リンパ節]
[手関節骨折]
これらの[表層]データを対象とした単語分割処理について説明する。
[リンパ節]="リ"、"ン"、"パ"、"節"
[手関節骨折]=手"、"間"、"接"、"骨"、"折"
これらの「異なり文字列」の集合が抽出される。
WL:左側に現れる文字列集合
WR:右側に現れる文字列集合
n:集合の文字列数
である。
上記式によって、以下のエントロピー値が算出される。
H(WL):文字列[W]に対して左に出現する文字列のエントロピーの値、
H(WR):文字列[W]に対して右に出現する文字列のエントロピーの値、
PP(WL):文字列[W]に対する左の文字列のパープレキシティ、
PP(WR):文字列[W]に対する右の文字列のパープレキシティ、
である。
"リ"、"ン"、"パ"の右側と、
"ン"、"パ"、"節"の左側、
これらの各パープレキシティの値のみを用いてパープレキシティ平均値を算出して、この算出したパープレキシティ平均値を閾値[t]とする。"リ"の左側と"節"の右側のパープレキシティは平均の計算には利用しない。
なお、上述した閾値の計算方法は一例であり、その他の閾値算出手法を適用してもよい。例えば、平均の変わりに中点を用いてもよいし、また閾値を左右2つ別々に計算してもよい。
次に、図1に示す言語解析システム100において実行する単語抽出処理の詳細について、図4に示すフローチャートを参照して説明する。
例えば、テキスト「最新解剖学用語集」には、各エントリが改行で区切られている以下のようなテキストが含まれる。
(テキスト例)
「翼口蓋神経節の副交感神経根
右肺の内側肺底枝(B7)
後側頭板間静脈
強膜静脈洞
・・・」
"強膜静脈洞"
から最大長3で部分文字列を抽出すると以下のような抽出文字列が取得される。
{強,膜,静,脈,洞,強膜,膜静,静脈,脈洞,強膜静,膜静脈,静脈洞}
(a)"が、を、する、と、に、または、による、の、される、のための、および、からの、における、との、への"を平仮名のまとまりとして含むもの、
(b)"ぁぃぅぇぉっゃゅょァィゥェォヵヶッャュョんンー・+−/%〜:;"のいずれかの文字で始まるもの、
(c)"・,、〜"のいずれかの文字で終わるもの、
これらは基本的に日本語の単語にはなりえないので削除する。文字列フィルタリング部103は予め削除する文字列情報を登録情報として保持し、これらの登録情報を適用して文字列フィルタリングを実行する。
(d)既に辞書に登録されている単語、
についても削除する処理を実行する。
本処理例では、「最新解剖学用語集」のエントリや形態素解析の標準的な辞書として知られているIPA辞書(http://chasen.naist.jp/hiki/ChaSen/)のエントリを予め単語データベース122に登録しておき、一致する文字列を削除する。
(e)従来手法において抽出可能な単語であると判定される文字列、
についての削除を行なう構成としてもよい。
例えば、テキストデータベース121に格納されたテキスト内での出現頻度の大きい文字列については、従来手法を適用した処理によっても抽出可能な単語であり、これらの単語に相当する文字列を削除してもよい。
なお、従来手法において抽出可能な単語であると判定される文字列についての削除は行わない構成としてもよい。この場合は、これらの文字列についても、本実施例に従った処理を適用して単語として抽出することができる。
(1)基本的に日本語の単語にはなりえない文字列(上記(a)〜(c))、
(2)既に辞書に登録されている単語(上記(d))、
(3)テキストデータベース121に格納されたテキスト内での出現頻度の大きい文字列(上記(e))、
これらの文字列を削除する。このフィルタリング処理の結果として、例えば、ステップS202において抽出された文字列から、上記(1)〜(3)に該当する文字列が削除され、その他の文字列が解析対象文字列として選択されることになる。ここでは、「最新解剖学用語集から抽出された出現頻度5以下の部分文字列」を解析対象文字列集合とする。例えば、以下の文字列が抽出される。
(解析対象文字列集合)
BIO
下腿骨
助骨部
中葉枝
例えば、m=1で、選択した解析対象文字列が"下腿骨"だとすれば、先頭の"下"と末尾の"骨"を抽出する。
例えば、テキストデータベース121に格納されている医療テキスト集合から、
文字列"下腿骨"の周辺文字列を抽出する。m=1とした設定では、文字列"下腿骨"の左側の1文字、右側の1文字をそれぞれ抽出する。その結果として、
左側の周辺文字列:"・""、"
これらの2種類の周辺文字列が得られ、
右側の周辺文字列として、"に""折"
これらの2種類の周辺文字列が得られる。
(a)「・・大腿・下腿骨に広範・・・」
(b)「・・象で、下腿骨折の影・・・」
これらの文書が検出された場合の結果である。すなわち、
上記(a)から「下腿骨」の左側の1文字「・」、右側の1文字「に」、
上記(b)から「下腿骨」の左側の1文字「、」、右側の1文字「折」、
これらが周辺文字列として抽出される。
解析対象文字列「下腿骨」の先頭・末尾文字列、および
解析対象文字列「下腿骨」の左右の周辺文字列
これらの文字列集合の、テキストデータベース121に格納されたテキストデータ内でのパープレキシティを計算する。すなわち、本処理例では、ステップS206における周辺文字列抽出処理において抽出された、解析対象文字列「下腿骨」を含む文書は、以下の2つである。
(a)「・・大腿・下腿骨に広範・・・」
(b)「・・象で、下腿骨折の影・・・」
解析対象文字列「下腿骨」の先頭・末尾文字列、および
解析対象文字列「下腿骨」の左右の周辺文字列
を選択して、それぞれのパープレキシティを算出する。具体的処理例について、図5、図6を参照して説明する。
(a)「・・大腿・下腿骨に広範・・・」
この文書から、
解析対象文字列「下腿骨」の先頭文字列[下]と、末尾文字列[骨]が選択され、
「下腿骨」の先頭文字列[下]の左側パープレキシティと、
「下腿骨」の末尾文字列[骨]の右側パープレキシティ、
これらを算出し、さらに、
「下腿骨」の左の周辺文字列[・]の右側パープレキシティと、
「下腿骨」の右の周辺文字列[に]の左側パープレキシティ、
これらを、テキストデータベース121に格納されたテキストを対象とした処理によって算出する。
PP(WL):文字列[W]に対する左の文字列のパープレキシティ、
PP(WR):文字列[W]に対する右の文字列のパープレキシティ、
である。
(b)「・・象で、下腿骨折の影・・・」
この文書についても同様に、パープレキシティ算出対象文字列を選択する。すでに、解析対象文字列「下腿骨」の先頭文字列[下]と、末尾文字列[骨]については選択済みであるので、
「下腿骨」の左の周辺文字列[、]の右側パープレキシティと、
「下腿骨」の右の周辺文字列[折]の左側パープレキシティ、
これらを、テキストデータベース121に格納されたテキストを対象とした処理によって算出する。
(1)解析対象文字列「下腿骨」の先頭文字列[下]の左側パープレキシティ
(2)解析対象文字列「下腿骨」の末尾文字列[骨]の右側パープレキシティ
(3)解析対象文字列「下腿骨」の左の周辺文字列[・][、]の右側パープレキシティの平均値、
(4)解析対象文字列「下腿骨」の右の周辺文字列[に][折]の左側パープレキシティの平均値、
これらの各値を算出する。
(1)解析対象文字列の先頭m文字の左側のパープレキシティa、
(2)解析対象文字列の末尾m文字の右側のパープレキシティb、
(3)解析対象文字列の左側m文字の周辺文字列の集合の右側のパープレキシティの平均値c、
(4)解析対象文字列の右側m文字の周辺文字列の集合の左側のパープレキシティ平均値d、
の4つの値の最小値を対象文字列のスコアとして設定する。このように設定することで分岐数の小さい境界を有する文字列であっても抽出することができる。
なお、このスコアの設定方法は一例であり、この他の手法を用いる構成としてもよい。例えば、上記4つの値a〜dの平均をスコアとして用いる構成としてもよく、この場合には同程度の境界を有する文字列が単語として抽出されるために正確な単語が抽出されやすくなる。
閾値t=10.0
とした場合、上述した解析対象文字列「下腿骨」のテキストデータベース121を対象として実行したパープレキシティ算出に基づいて設定されたスコアが、
スコア=34.95
とすると、
スコア:34.95≧10.0(閾値)
上記式が成立するので、"下腿骨"を単語として認定する。
上述した本発明の一実施例に従った単語抽出処理の結果についての評価処理を実行したので、その結果について以下説明する。
(a)上述した実施例に従った処理を行った結果と、
(b)先に説明した非特許文献1(Shimohata, S. Sugio, T. Nagata, J. Retrieving collocations by co−occurrences and word order constraints. Proc. of ACL/EACL−97)に開示された単語抽出処理、すなわち、コロケーション(連語)を抽出するにあたって、連語のコーパス内でのエントロピー(情報量)を計算し、両側の単語のエントロピーが設定した閾値を越える連語を抽出する処理を実行した結果、
これらを比較した。
(1)「最新解剖学用語集」、
(2)「MEDIS 標準病名マスター2.4.2」(http://www.medis.or.jp/)
これらに含まれるテキストデータであり、これらのテキスト中の、約65,000件の実際の医療テキスト中での出現頻度が5以下の文字列に関して、
(a)上記実施例に従った処理を行い、スコア順に上位200の文字列を抽出してIPA辞書に含まれるものを除いた結果A、
(b)上記先行技術(非特許文献1)に記載された方法を適用した処理によって抽出された文字列のスコア順に上位200文字列を抽出してIPA辞書に含まれるものを除いた結果B、
これらの結果Aと結果Bについて、単語として成立するものを専門家である医師が確認したところ、図7に示す評価結果が得られた。
正答率で16.8%、
RRSUMで0.29
これらの性能向上が見られ、
また、「標準病名マスター」に対する処理においては、本実施例に従った処理が、従来手法に比較して、
正答率で0.6%、
RRSUMで0.52
これらの性能向上が得られ、本発明の有効性が確認できた。
次に、本発明の言語解析システムの実施例2の処理について説明する。実施例2の言語解析システムの実行する処理フローを図8に示す。実施例2においてもシステム構成は、図1を参照して説明したシステム構成が適用される。本実施例では、テキストデータベース121に含まれるテキスト単位での処理を実行する処理例である。例えば、図2(a)を参照して説明したようにテキストデータベース121には、様々なテキストが識別子(ID)に対応付けられて格納されている。本実施例では、これらの識別子の設定された各テキスト単位で単語抽出処理を実行する。各テキスト単位で単語(例えば未知語)を取得することで、各テキストに対応する単語情報を得ることが可能となる。さらに各テキストからの抽出単語のスコア順ランキング処理などが可能となる。
ID1:両側肺野に優位な・・・
上記テキストを選択する。
次に、ステップS303において、文字列抽出部102が、入力されたテキストを改行・句点等の区切り記号で分割し、分割された各テキストから取りえる全ての部分文字列を抽出する。
次に、ステップS304において、文字列フィルタリング部103において、文字列フィルタリング処理を実行する。この処理は、先に実施例1において説明したように、
(1)基本的に日本語の単語にはなりえない文字列、
(2)既に辞書に登録されている単語、
(3)テキストデータベース121に格納されたテキスト内での出現頻度の大きい文字列、
これらの文字列を削除する処理として実行される。
次のステップS308は、分岐数算出部(パープレキシティ算出部)106の処理であり、ステップS307の周辺文字列抽出処理において抽出された、解析対象文字列を含む文書を構成する
解析対象文字列の先頭・末尾文字列、および
解析対象文字列の左右の周辺文字列、
これらの文字列集合の、テキストデータベース121に格納されたテキストデータ内でのパープレキシティを計算する。具体的には、
(1)解析対象文字列の先頭文字列の左側パープレキシティ
(2)解析対象文字列の末尾文字列の右側パープレキシティ
(3)解析対象文字列の左の周辺文字列の右側パープレキシティの平均値、
(4)解析対象文字列の右の周辺文字列の左側パープレキシティの平均値、
これらの各値を算出する。
(1)解析対象文字列の先頭m文字の左側のパープレキシティa、
(2)解析対象文字列の末尾m文字の右側のパープレキシティb、
(3)解析対象文字列の左側m文字の周辺文字列の集合の右側のパープレキシティの平均値c、
(4)解析対象文字列の右側m文字の周辺文字列の集合の左側のパープレキシティ平均値d、
これらの4つの値a〜dの最小値を対象文字列のスコアとして設定する。なお、先に図5、図6を参照して説明した処理例はm=1の場合である。
次に、図9を参照して本発明の言語解析システムの実施例3について説明する。上述した実施例1,2では、例えば図1のシステム構成における先頭・末尾文字列抽出部104が、解析対象文字列を含む文書を構成する以下のデータ、すなわち、
解析対象文字列の先頭・末尾のm文字の文字列、および、
解析対象文字列の左右の周辺のm文字の文字列、
これらのm文字の文字列集合に対して、テキストデータベース121に格納されたテキストデータ内でのパープレキシティを計算する構成としていた。
(1)解析対象文字列の先頭のm文字の文字列の左側パープレキシティ
(2)解析対象文字列の末尾のm文字の文字列の右側パープレキシティ
(3)解析対象文字列の左の周辺m文字の文字列の右側パープレキシティの平均値、
(4)解析対象文字列の右の周辺m文字の文字列の左側パープレキシティの平均値、
これらの各値を算出する構成としていた。
これに対して本実施例では、m=1とした場合、部分文字列抽出部301が、対象文字列のm=1文字からなるすべての部分文字列を抽出する。解析対象文字列が"下腿骨"だとすれば、先頭の"下"と末尾の"骨"、さらに、中央の"腿"を抽出する。
(a)"下" の右側のパープレキシティ、
(b)"腿"の右側および左側のパープレキシティ、
(c)"骨"の左側のパープレキシティ、
これらのパープレキシティについても算出する。
(1)"下"と"腿"の右側のパープレキシティの平均、
(2)"腿"と"骨"の左側のパープレキシティの平均、
これらの平均値をそれぞれ計算し、これらの平均値の最大値を内部スコアとして設定する。
(1)解析対象文字列の先頭m文字の左側のパープレキシティa、
(2)解析対象文字列の末尾m文字の右側のパープレキシティb、
(3)解析対象文字列の左側m文字の周辺文字列の集合の右側のパープレキシティの平均値c、
(4)解析対象文字列の右側m文字の周辺文字列の集合の左側のパープレキシティ平均値d、
これらの4つの値a〜dの最小値を対象文字列の境界スコア[S]として設定する。なお、先に図5、図6を参照して説明した処理例はm=1の場合である。
101 テキスト入力部
102 文字列抽出部
103 文字列フィルタ部
104 先頭・末尾文字列抽出部
105 周辺文字列抽出部
106 分岐数算出部(パープレキシティ算出部)
107 単語分割部
108 スコア設定部
109 閾値設定部
110 単語判定部
121 テキストデータベース
122 単語データベース
301 部分文字列抽出部
302 内部スコア設定部
501 CPU(Central Processing Unit)
502 ROM(Read-Only-Memory)
503 RAM(Random Access Memory)
504 ホストバス
505 ブリッジ
506 外部バス
507 インタフェース
508 キーボード
509 ポインティングデバイス
510 ディスプレイ
511 HDD(Hard Disk Drive)
512 ドライブ
514 接続ポート
515 通信部
521 リムーバブル記録媒体
522 外部接続機器
Claims (12)
- テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出部と、
テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出部の抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出部と、
前記分岐状態評価値算出部の算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定部と、
前記スコア設定部の設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定部と、
を有することを特徴とする言語解析システム。 - 前記分岐数算出部で算出される評価値は、
解析対象文字列の両端部のそれぞれ1文字以上における解析対象文字列の外方向の出現文字列の分岐状態を示す評価値と、
前記解析対象文字列に接する両端部のそれぞれ1文字以上における解析対象文字列方向の出現文字列の分岐状態を示す評価値と、
を算出する構成であり、
前記スコア設定部は、
前記分岐数算出部の算出した評価値に基づいてスコアを算出する構成であることを特徴とする請求項1に記載の言語解析システム。 - 前記スコア設定部は、
解析対象文字列の両端部の1文字以上における解析対象文字列の外方向の出現文字列の分岐状態を示す評価値と、
前記解析対象文字列に接する両端部の1文字以上における解析対象文字列方向の出現文字列の分岐状態を示す評価値と、
のうちの最小値に基づいてスコアを算出する構成であることを特徴とする請求項2に記載の言語解析システム。 - 前記言語解析システムは、さらに、
単語データベース内に登録された単語をm文字(ただしm≧1の予め定めた数)単位で分割する単語分割部と、
前記分岐状態評価値算出部は、前記単語分割部の分割したm文字単位の文字列に対応する解析対象文字列の境界における出現文字列の分岐状態を表す複数の評価値を算出し、
前記分岐状態評価値算出部の算出した複数の評価値から、m文字単位の文字列端部の外部方向の出現文字列の分岐状態を示す評価値を除く複数の評価値の平均値を閾値として算出する閾値設定部を有し、
前記単語判定部は、
前記スコア設定部の設定したスコアと、前記閾値設定部の設定した閾値との比較を実行して、比較結果に応じて前記解析対象文字列が単語であるとの判定を行なう構成であることを特徴とする請求項1に記載の言語解析システム。 - 前記言語解析システムは、さらに、
前記文字列抽出部の抽出した文字列の集合から、単語として成立しない文字列を削除するフィルタリング処理を実行する文字列フィルタ部を有し、
前記分岐状態評価値算出部は、
前記文字列フィルタ部におけるフィルタリング後の文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する処理を実行する構成であることを特徴とする請求項1に記載の言語解析システム。 - 前記言語解析システムは、さらに、
前記文字列抽出部の抽出した抽出文字列から、抽出文字列の先頭および末尾文字列を抽出する先頭末尾文字列抽出部を有し、
前記分岐状態評価値算出部は、
前記先頭末尾文字列抽出部の抽出した先頭末尾文字列に基づいて、前記解析対象文字列の境界における出現文字列の分岐状態を表す評価値の算出を実行する構成であることを特徴とする請求項1に記載の言語解析システム。 - 前記言語解析システムは、さらに、
前記文字列抽出部の抽出した抽出文字列から、抽出文字列の部分文字列を抽出する部分文字列抽出部を有し、
前記分岐状態評価値算出部は、
前記部分文字列抽出部の抽出した部分文字列に基づいて、前記解析対象文字列の内部における出現文字列の分岐状態を表す評価値の算出を実行し、
前記単語判定部は、
前記スコア設定部の設定したスコアと、前記部分文字列抽出部の抽出した部分文字列に関する前記分岐状態評価値算出部が算出した評価値に基づいて設定した内部スコアとに基づいて前記解析対象文字列が単語であるか否かを判定する処理を実行する構成であることを特徴とする請求項1に記載の言語解析システム。 - 前記言語解析システムは、
テキストデータベースに格納されたテキスト単位で単語抽出処理を実行する構成であることを特徴とする請求項1に記載の言語解析システム。 - 前記分岐状態評価値算出部において算出される評価値が、解析対象文字列の境界における出現文字列の分岐数を表すパープレキシティであることを特徴とする請求項1〜8のいずれかに記載の言語解析システム。
- 言語解析システムによるテキスト解析に基づいて抽出された単語データを登録した辞書であり、
前記言語解析システムに、
テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出部と、
テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出部の抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出部と、
前記分岐状態評価値算出部の算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定部と、
前記スコア設定部の設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定部と、
を有し、
前記単語判定部において単語として判定された単語データを登録データとして有する辞書。 - 言語解析システムにおいて言語解析処理を実行する言語解析方法であり、
文字列抽出部が、テキストデータから予め定めた文字数以下の文字列の集合を抽出する文字列抽出ステップと、
分岐数算出部が、テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出する分岐状態評価値算出ステップと、
スコア設定部が、前記分岐状態評価値算出ステップで算出した評価値に基づいて解析対象文字列に対応するスコアを設定するスコア設定ステップと、
単語判定部が、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定する単語判定ステップと、
を有することを特徴とする言語解析方法。 - 言語解析システムにおいて言語解析処理を実行させるコンピュータ・プログラムであり、
文字列抽出部に、テキストデータから予め定めた文字数以下の文字列の集合を抽出させる文字列抽出ステップと、
分岐数算出部に、テキストデータベース内のテキストを対象とした解析処理により、前記文字列抽出ステップにおいて抽出した文字列を解析対象文字列として、該解析対象文字列の境界における出現文字列の分岐状態を表す評価値を算出させる分岐状態評価値算出ステップと、
スコア設定部に、前記分岐状態評価値算出ステップで算出した評価値に基づいて解析対象文字列に対応するスコアを設定させるスコア設定ステップと、
単語判定部に、前記スコア設定ステップで設定したスコアに基づいて前記解析対象文字列が単語であるか否かを判定させる単語判定ステップと、
を実行させることを特徴とするコンピュータ・プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007000070A JP5239161B2 (ja) | 2007-01-04 | 2007-01-04 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007000070A JP5239161B2 (ja) | 2007-01-04 | 2007-01-04 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008165675A true JP2008165675A (ja) | 2008-07-17 |
JP5239161B2 JP5239161B2 (ja) | 2013-07-17 |
Family
ID=39695044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007000070A Expired - Fee Related JP5239161B2 (ja) | 2007-01-04 | 2007-01-04 | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5239161B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013545160A (ja) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | 指定特性値を使用するターゲット単語の認識 |
CN110709830A (zh) * | 2017-05-16 | 2020-01-17 | 富士通株式会社 | 解析程序、解析方法以及解析装置 |
WO2022185361A1 (ja) * | 2021-03-01 | 2022-09-09 | 日本電信電話株式会社 | 単語選定支援装置、単語選定支援方法、及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP2002082690A (ja) * | 2000-09-05 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
JP2006139686A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
-
2007
- 2007-01-04 JP JP2007000070A patent/JP5239161B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
JP2002082690A (ja) * | 2000-09-05 | 2002-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 |
JP2006139686A (ja) * | 2004-11-15 | 2006-06-01 | Nippon Telegr & Teleph Corp <Ntt> | 単語抽出方法、装置、およびプログラム |
Non-Patent Citations (2)
Title |
---|
CSNG200700114004; 森 信介: '最大エントロピー法による単語境界確率の推定' 情報処理学会研究報告 第2006巻,第107号, 20061020, 19-24頁, 社団法人情報処理学会 * |
JPN6012033793; 森 信介: '最大エントロピー法による単語境界確率の推定' 情報処理学会研究報告 第2006巻,第107号, 20061020, 19-24頁, 社団法人情報処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013545160A (ja) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | 指定特性値を使用するターゲット単語の認識 |
CN110709830A (zh) * | 2017-05-16 | 2020-01-17 | 富士通株式会社 | 解析程序、解析方法以及解析装置 |
CN110709830B (zh) * | 2017-05-16 | 2022-11-22 | 富士通株式会社 | 储存有解析程序的记录介质、解析方法以及解析装置 |
WO2022185361A1 (ja) * | 2021-03-01 | 2022-09-09 | 日本電信電話株式会社 | 単語選定支援装置、単語選定支援方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5239161B2 (ja) | 2013-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9244908B2 (en) | Generation of a semantic model from textual listings | |
JP2021007031A (ja) | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 | |
CN103678316B (zh) | 实体关系分类装置和实体关系分类方法 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
Treeratpituk et al. | Name-ethnicity classification and ethnicity-sensitive name matching | |
JP2014078132A (ja) | 機械翻訳装置、方法およびプログラム | |
WO2022160454A1 (zh) | 医疗文献的检索方法、装置、电子设备及存储介质 | |
KR100396826B1 (ko) | 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법 | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
CN110020005A (zh) | 一种病历中主诉和现病史中症状匹配方法 | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP5239161B2 (ja) | 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム | |
CN114446422A (zh) | 病案标化方法、系统及相应设备和存储介质 | |
KR101375221B1 (ko) | 의료 프로세스 모델링 및 검증 방법 | |
JP2015194919A (ja) | 文書要約装置、文書要約方法、及び、プログラム | |
CN111339778B (zh) | 文本处理方法、装置、存储介质和处理器 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Siklósi et al. | Detection and expansion of abbreviations in Hungarian clinical notes | |
US10572592B2 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP5151449B2 (ja) | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム | |
JPWO2009113289A1 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JPH11143902A (ja) | n−gramを用いた類似文書検索方法 | |
JP7117168B2 (ja) | 情報処理装置および情報処理方法 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120607 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130318 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5239161 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |