JP4007504B2 - 単語分割装置、記憶媒体およびプログラム - Google Patents

単語分割装置、記憶媒体およびプログラム Download PDF

Info

Publication number
JP4007504B2
JP4007504B2 JP2003146673A JP2003146673A JP4007504B2 JP 4007504 B2 JP4007504 B2 JP 4007504B2 JP 2003146673 A JP2003146673 A JP 2003146673A JP 2003146673 A JP2003146673 A JP 2003146673A JP 4007504 B2 JP4007504 B2 JP 4007504B2
Authority
JP
Japan
Prior art keywords
character string
character
cohesion
word
cohesion degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003146673A
Other languages
English (en)
Other versions
JP2004348584A (ja
Inventor
貴行 足立
節夫 山田
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003146673A priority Critical patent/JP4007504B2/ja
Publication of JP2004348584A publication Critical patent/JP2004348584A/ja
Application granted granted Critical
Publication of JP4007504B2 publication Critical patent/JP4007504B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、入力文字列を単語に分割するための方法、装置、記憶媒体およびプログラムに関する。
【0002】
【従来の技術】
現在、世の中には大量の文書が新たに生まれ続けている。そのため、その文書中に出現する単語は、辞書には登録されていない語(未知語)が含まれている。従来、文書を単語分割する際には辞書を用いる手法が利用されてきた。しかしながら、文書中に辞書には登録されていない未知語が含まれていると単語分割を誤ってしまう可能性がある。そこで、辞書によらない統計量のみによる単語分割手法が提案されている。
【0003】
例えば、事前に準備された文書集合中の文字列の統計量を用いて、入力文字列における任意の文字列の統計量とその長さから語らしさを求め、入力文字列全体として語らしさの総和が最大となる文字列の並びを求めることにより単語分割を行うものがある(例えば、非特許文献1参照。)。
【0004】
また、事前に準備された文書集合中での文字列の出現頻度を用いて、入力文字列の先頭から順に単語境界を求めることにより単語分割を行うものがある(例えば、非特許文献2参照。)。
【0005】
【非特許文献1】
小澤智裕、他3名、「情報検索の類似尺度を用いた検索要求文の単語分割」、言語処理学会第5回年次大会、1999、pp.306-308
【非特許文献2】
中渡瀬秀一、他2名、「統計的手法による辞書未登録語の獲得法」、電子情報通信学会論文誌、D-II、Vol.J81-D-II、No.2、1998、pp.238-248
【0006】
【発明が解決しようとする課題】
しかしながら、非特許文献1は、ある文字列の語らしさを求めるのにキーワードとなりやすいものを高い値とする統計量を用いているため、語であってもキーワードとなりにくいものに関しては値が低くなり、分割誤りを起こす原因となる。
【0007】
また、非特許文献2は、ある文字列とそれに後続する1文字とそれらを連結した文字列の出現頻度を基にその間の語境界を調べるため、語境界を決めるのに用いる情報が局所的なものに偏っており、分割誤りを起こす場合がある。
【0008】
本発明は上述の事情を考慮してなされたものであり、その目的とするところは、キーワードに依存せずに語らしさを求めることができ、また文字列に関する少数の偏った情報から計算されることによる語らしさの誤りを防止できるようにして、統計量による単語分割を精度良く行うことが可能な方法、装置、記憶媒体およびプログラムを提供することにある。
【0009】
【課題を解決するための手段】
上記課題を解決するために、請求項1に係る本発明は、入力した文字列である入力データを単語に分割する単語分割装置であって、事前に準備した文書集合における文字列の出現頻度を利用することにより、入力データに含まれる全ての文字列について、該文字列と該文字列に含まれる任意の部分文字列それぞれとの間の出現頻度の割合の平均を該文字列の語らしさを示す文字列結束度として算出する処理を実行する文字列結束度計算手段と、前記文字列結束度計算手段によって得られた前記全ての文字列それぞれの文字列結束度に基づいて前記入力データ全体として文字列結束度の総和が最大となる文字列の並びを決定し、その決定された並びに対応する各文字列を単語として出力する最適文字列決定手段とを具備することを特徴とする。
【0010】
この単語分割装置においては、事前に準備した文書集合における文字列の出現頻度を統計情報として利用して、入力文字列における全ての文字列の語らしさが求められる。この場合、各文字列の語らしさは、ある文字列とそれに含まれる任意の部分文字列それぞれとの間の出現頻度の割合を調べ、全ての割合の平均を該文字列の文字列結束度として算出することにより求められる。このような文字列結束度を利用することにより、キーワードに依存せず語らしさを計算することができる。また、文字列毎にそれに含まれる任意の部分文字列それぞれを考慮しているので、文字列に関する少数の偏った情報から計算されることによる語らしさの誤りを防ぐことが可能となり、統計情報のみを利用した単語分割を精度良く行うことが可能となる。
【0011】
また、請求項2に係る本発明は、ある文字列が1文字である場合でもその語らしさを正しく計算できるようにするために、入力データに含まれる全ての文字列のうち文字列が1文字である文字列については、該文字列にその直前の文字列を付加した文字列と該直前の文字列との間の出現頻度の割合と、該文字列にその直後の文字列を付加した文字列と該直後の文字列との間の出現頻度との割合と、前記文書集合における該文字列の出現頻度の割合とに基づいて、該文字列の語らしさを示す文字列結束度を算出することを特徴とする。
【0012】
これにより、1文字という特殊な場合の語らしさについても精度よく算出することが可能になる。
【0013】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
図1は、本発明の一実施形態に係る単語分割方法の処理手順の概要を示すフローチャートである。この処理手順は、入力文字列を単語に分割するという分かち書きのための言語処理を実行する方法であり、辞書を用いずに統計情報のみを利用して単語分割を実行する。統計情報としては、事前に準備した文書集合における文字列の出現頻度が用いられる。
【0014】
まず、処理対象の文字列を入力してそれを入力データとし(ステップ100)、事前に準備した文書集合における文字列の出現頻度を示す上述の統計情報を利用することにより、その入力データに含まれる全ての文字列について文字列結束度を計算する(ステップ200)。文字列結束度は該文字列の語らしさを図る指標であり、本実施形態においては、ある文字列とそれに含まれる任意の部分文字列それぞれとの間の出現頻度の割合をすべて調べ、それら全ての割合の平均を該文字列の文字列結束度とする。
【0015】
全ての文字列について文字列結束度を算出した後、全ての文字列それぞれの文字列結束度に基づいて、入力データ全体として文字列結束度の総和が最大となる文字列の並びを求め(ステップ300)、得られた文字列を単語とし、単語分割の結果を出力する(ステップ400)。
【0016】
図2は、本発明の一実施形態である単語分割装置の構成を示すブロック図である。
単語分割装置1000は上述の単語分割処理を実行する装置であり、図示のように、文字列結束度計算部1100および最適文字列決定部1200を備えている。文字列結束度計算部1100は入力データに含まれる全ての文字列それぞれの文字列結束度を算出するものであり、文字列を入力データとして入力し(上述のステップ100)、その入力データに含まれる全ての文字列について文字列結束度を計算する(上述のステップ200)。最適文字列決定部1200は、全ての文字列の文字列結束度から入力データ全体として文字列結束度の総和が最大となる文字列の並びを決定し(上述のステップ300)、その決定された並びに対応する各文字列を単語分割の結果として出力する(上述のステップ400)。
【0017】
単語分割装置1000は専用の言語処理装置によって実現することも出来るが、通常のコンピュータによっても実現することもできる。このコンピュータの構成の一例を図3に示す。
図3に示されているように、このコンピュータは、CPU11、主記憶装置(メモリ)12、二次記憶装置(ディスク装置)13、入力装置14、および出力装置15などから構成されている。これらCPU11、メモリ12、ディスク装置13、入力装置14、および出力装置15はバス10に接続されている。CPU11はメモリ12上のプログラムに従って各種演算処理を実行する。本実施形態では、CPU11に上述の単語分割処理を実行させるために単語分割プログラム21が用いられる。
【0018】
単語分割プログラム21はたとえばCD−ROMなどのコンピュータ読み取り可能な記憶媒体を通じて本コンピュータにインストールされたものである。CPU11は、単語分割プログラム21をディスク装置13からメモリ12にロードして実行する。またディスク装置13には、文字列出現頻度情報22も予め格納されている。この文字列出現頻度情報22は大量のテキストデータなどの文書集合から予め求められた上述の統計情報であり、入力装置14や他のプログラム等から入力される。入力装置14は、単語分割プログラム21によって処理される入力データや、ディスク装置13の文字列出現頻度情報22をコンピュータに入力するために用いられる。出力装置15は、単語分割プログラム21によって得られた単語分割の結果を出力するために用いられる。
【0019】
単語分割プログラム21は、それを構成するモジュールとして、文字列入力処理部31、文字列結束度計算処理部32、および最適文字列決定処理部33を有している。文字列入力処理部31は処理対象の文字列を例えば入力装置14や他のプログラム等から入力データとして入力する処理をCPU11に実行させるモジュールである。文字列結束度計算処理部32は、入力データに含まれる全ての文字列に対して文字列結束度を求めるための演算処理をCPU11に実行させるモジュールである。最適文字列決定処理部33は、入力データに含まれる全ての文字列それぞれの文字列結束度から、入力データ全体として文字列結束度の総和が最大となる文字列の並びを決定して単語分割の結果を出力装置15や他のプログラムに出力する演算処理をCPU11に実行させるモジュールである。
【0020】
単語分割の結果は、例えば文書検索のような様々な言語処理に利用される。例えば、検索対象とすべき文書データを構成する文字列を入力データとすることにより、当該文書データを検索するためのインデックスを作成することが出来、また検索用の質問文として入力された文字列を入力データとすることにより、当該質問文に対応する検索語を求めることも出来る。
【0021】
以下、単語分割処理の具体的な例について説明する。なお、この例では対象となる言語を日本語として説明するが、対象となる言語はこれに限定されない。
以下では、図2の単語分割装置に基づいて説明する。
まず、図2の文字列結束度計算部1100において、例えば、文字列“日本国民の”が入力される。また、入力された文字列を入力データとする。
【0022】
次に、入力データに含まれる全ての文字列に対して、文字列結束度(以下、単に結束度という)を計算する。結束度は、上述した統計情報、つまり予め準備しておいた文書集合から求めておいた任意の文字列に対する出現頻度および文書集合全体の文字数を利用して計算する。例えば、図4のように文字列“日”の出現頻度は200000、文字列“日本”の出現頻度は80000、文書全体の文字数(N)は10000000であったとする。続いて、結束度の計算を説明する前に、いくつかの事柄について事前に説明する。まず、入力データは順に1番目からm番目の文字の並びとする。また、w(x,y)は、入力データの先頭から数えてx番目の文字からy番目の文字までの文字列とする。また、tf(w(x,y))は、文字列w(x,y)に対し、事前準備した文書集合中の出現頻度とする。また、結束度K(w(x,y))は、文字列w(x,y)の結束度を表わす。
【0023】
次に、結束度の計算について詳しく説明する。
文字列が2文字以上の場合の結束度は、例えば、図5の(a)の式で求まるとする。この式は、文字列w(i,i+n)における結束度である。ただし、1≦i≦mであり、nは入力データの最大の文字数mからiを引いた値を超えない範囲(n≦m-i)の値である。
【0024】
中括弧(“{”と“}”)で囲まれた第1項は、ある文字列w(i,i+n)と任意の部分文字列w(a,b)それぞれとの間の出現頻度の割合の総和である。ここで、Cは部分文字列w(a,b)の最短の長さを規定する定数である。例えば、全ての長さの部分文字列w(a,b)を考慮する場合、文字列w(i,i+n)に含まれる全ての任意の部分文字列w(a,b)それぞれに対し、文字列w(i,i+n)と部分文字列w(a,b)との間の出現頻度の割合を求め、足しあわせる(なお、C=kとすると、文字列w(i,i+n)の部分文字列のうち最短の部分文字列の長さがk+1となる。よって、例えば、C=1とすると、1文字の部分文字列を計算から除外することもできる。)。最後に1引いているのは、文字列w(i,i+n)自身が部分文字列w(a,b)と同じ場合の出現頻度の割合を含めないためである。
【0025】
中括弧(“{”と“}”)で囲まれた第2項は、第1項で考慮した部分文字列の総数の逆数である。(i+n)-(a+C)+1は第1項の最も内側のΣの総数(a+Cからi+n)であり、それを第1項と同じ外側のΣによってiからi+nまで足し合わせている。最後に1引いているのは、第1項では、文字列w(i,i+n)自身が部分文字列w(a,b)と同じ場合の出現頻度の割合を含めないためで、その分を総数から除いている。
【0026】
以上から、結束度K(w(i,i+n))は、文字列w(i,i+n)とそれに含まれる任意の部分文字列w(a,b)それぞれとの間の出現頻度の割合を全て求め、全種類の部分文字列数で割ったものとなる。これにより、少数の文字列に関する偏った情報から語らしさを求めるよりも複数の任意の部分文字列を考慮することでより、結束度を精度良く求めることができる。
例えば、文字列“日本国民”の結束度K(w(1,4))を図4の文字列の出現頻度を用いて求める。図5からi=1、n=3となる。またC=0(つまり、全ての部分文字列を考慮する)とする。
【0027】
K(w(1,4))の第1項は、tf(w(1,4))/tf(w(1,1))+tf(w(1,4))/tf(w(1,2))+tf(w(1,4))/tf(w(1,3))+tf(w(1,4))/tf(w(1,4))+tf(w(1,4))/tf(w(2,2))+tf(w(1,4))/tf(w(2,3))+tf(w(1,4))/tf(w(2,4))+tf(w(1,4))/tf(w(3,3))+tf(w(1,4))/tf(w(3,4))+tf(w(1,4))/tf(w(4,4))−1=30/200000+30/80000+30/700+30/30+30/160000+30/1000+30/60+30/190000+30/10000+30/60000−1=0.5772となる。ここで、部分文字列w(1,4)は対象としている文字列自身であり、その出現頻度はtf(w(1,4))=30/30=1となるので、これを含めないために最後で1引いている。
【0028】
次に、K(w(1,4))の第2項は、1/(((1+3)−(1+0)+1)+((1+3)−(2+0)+1)+((1+3)−(3+0)+1)+((1+3)−(4+0)+1)−1)=1/9となり、文字列w(1,4)自身を除いた部分文字列の数は9通りである。
最終的に、文字列“日本国民”の結束度K(w(1,4))=0.5772×1/9=0.064となる。
文字列が1文字の場合の結束度は、例えば、図5の(b)の式を用いて算出する。この式は、w(i,i)における結束度である。ただし、1≦i≦mである。
【0029】
中括弧(“{”と“}”)で囲まれた、第1項は、文字列w(i,i)にその直前の文字w(i-1,i-1)を付加した文字列w(i-1,i)と当該直前の文字w(i-1,i-1)との間の出現頻度の割合と、文字列w(i,i)にその直後の文字w(i+1,i+1)を付加した文字列w(i,i+1)と当該直後の文字w(i+1,i+1)との間の出現頻度の割合、との平均である。これらは、現在注目している文字の前後の文字を考慮することで、文字列が2文字以上の場合と比べて結束度が極端に小さくなるのを防いでいる。なお、iが入力データの先頭の場合、第1項における先頭の項を0とし、iが入力データの末尾の場合、第1項における後の項を0としている。
中括弧(“{”と“}”)で囲まれた、第2項は、事前に準備された文書集合における文字列w(i,i)の出現頻度の割合である。これは、iが入力データの先頭や末尾の場合、極端に値が小さくなるのを防ぐのに有効である。
【0030】
図5の(b)の式の全体としては、第1項に重みαを、第2項に重み(1−α)を掛けている。これにより、事前に準備された文書集合の規模に合わせて、1文字に対する扱いを調整することが可能となる。
例えば、α=1/2とし、図4の文字列の出現頻度を用いると、入力データの先頭文字“日”の結束度は、K(w(1,1))=1/2×(0+tf(w(1,2))/tf(w(2,2)))/2+1/2×tf(w(1,1))/N=1/2×(0+80000/160000)/2+1/2×200000/10000000=0.135となる。
【0031】
また、文字列“本”の結束度は、K(w(2,2))=1/2×(tf(w(1,2))/tf(w(1,1))+tf(w(2,3))/tf(w(3,3)))/2+1/2×tf(w(2,2))/N=1/2×(80000/200000+1000/190000)/2+1/2×160000/10000000=0.109となる。
また、入力データの末尾文字“の”結束度は、K(w(5,5))=1/2×(tf(w(4,5))/tf(w(4,4))+0)/2+1/2×tf(w(5,5))/N=1/2×(5000/60000+0)/2+1/2×1600000/10000000=0.100となる。以上の結果、入力データ中に含まれる全ての文字列の結束度は図6のようになる。
【0032】
なお、文字列が1文字である文字列について図5の(b)の式を用いるのは、1文字という特殊な場合の語らしさについても精度よく算出するためであり、2文字以上の文字列の場合と同様に図5の(a)の式を利用することもできる。
図5の(b)の式を利用する場合には、文字列結束度計算部1100においては、入力データに含まれる全ての文字列が1文字の文字列であるか、2文字以上の文字列であるかが判別され、その判別結果に基づいて適用すべき式が選択される。
【0033】
次に、図2の最適文字列決定部1200では、全ての文字列それぞれの結束度から入力データ全体で文字列の結束度の総和が最大となる文字列の並びを求める。大まかには、入力データに含まれる全ての文字列について、その文字列の先頭からある文字までの結束度の総和が最大と文字列の並びを順に求めていき、末尾文字まで求まった時点で先頭から末尾まで結束度の総和が最大となる文字列の並びを選択する。
【0034】
以下、図7を用いて、入力データ全体文字列の結束度の総和が最大となる文字列の並びの求め方の例を説明する。
図7の各四角は“日本国民の”に含まれる全ての文字列に関するデータを表わしている。四角の上段は、“文字列の識別ID,文字列”である。中段は“文字列の結束度,(入力データの先頭からその文字列までの文字列並びについて各結束度の総和が最大となるもの(最大連結結束度))”である。下段は、“最大連結結束度を選んだ場合の1つ前の文字列の識別ID”である。なお、上段および中段の文字列の結束度はあらかじめ、図6の結束度算出結果を利用して格納しておく。
【0035】
次に、入力データの先頭文字から順に、先頭から現在注目している文字までの結束度の総和を求める。
例えば、最初に入力データの先頭“日”から始まる文字列を順に調べる。
文字列“日”の場合は先頭の文字列であるので、上段が“w(1,1),日”であるデータに対し、w(1,1)の結束度0.135をそのまま、最大連結結束度として中段の括弧に格納され、下段に“…”(先頭なので1つ前の文字列がないことを意味する)が格納される。w(1,2)〜w(1,5)についても同様に処理される。
【0036】
次に、入力データの2番目の“本”から始まる文字列を順に調べる。
文字列“本”の場合は、上段が“w(2,2),本”であるデータに対し、w(2,2)の結束度は0.109である。w(2,2)の最大連結結束度は、1つ前の文字列における最大連結結束度に、w(2,2)の結束度を足したものだが、1つ前の文字列はw(1,1)しかない。よって、w(2,2)の最大連結結束度は、0.135+0.109=0.244となり、中段の括弧に0.244が格納され、下段には“w(1,1)”が格納される。w(2,3)〜w(2,5)についても同様に処理される。
【0037】
次に、入力データの3番目の“国”から始まる文字列を順に調べる。
文字列“国”の場合は、上段が“w(3,3),国”であるデータに対し、w(3,3)の結束度は0.052である。w(3,3)の最大連結結束度は、1つ前の文字列における最大連結結束度に、w(3,3)の結束度を足したものだが、1つ前の文字列はw(2,2)とw(1,2)の2通りある。w(2,2)の最大連結結束度は0.244であり、w(1,2)の最大連結結束度は0.450であるので、最も大きなw(1,2)の方を選択する(図7では、選択された方を実線で、選択されなかった方を点線でつないでいる)。w(3,3)の最大連結結束度は、0.450+0.052=0.502となり、中段の括弧に0.502が、下段には“w(1,2)”が格納される。w(3,4)、w(3,5)についても同様に処理される。
同様に入力データの最後の文字から始まる文字列まで順に調べると、図7にあるようにw(5,5)までデータが格納される。
【0038】
次に、入力データの最後の文字を含む文字列同士(図7の2重線で囲まれた複数の四角のデータ)で最大連結結束度を比較し、最大となった文字列並びを入力データにおいて最適な文字列の並びとして選択する。w(1,5)、w(2,5)、…、w(5,5)について比較すると、中段の最大連結結束度が0.660となるw(5,5)が選択される。
【0039】
次に、w(5,5)から1つ前の文字列の識別IDを入力データの先頭まで順に調べると、w(5,5)の1つ前の文字列はw(3,4)、w(3,4)の1つ前の文字列はw(1,2)であると分かる(図7では太線で連結された文字並びのもの)。
最後に、得られた文字列を単語とし、単語分割の結果を出力する。
例えば、“日本/国民/の”にように分割箇所に“/”(スラッシュ)を入れて出力する。なお、各文字列の結束度も同時出力しても構わない。
【0040】
以上のように、本実施形態によれば、事前に準備された文書集合中の文字列の統計量を用いて、入力文字列における全ての文字列の語らしさを計算し、入力文字列全体として語らしさの総和が最大となる文字列の並びを求める単語分割において、ある文字列の語らしさ(結束度)をある文字列とそれに含まれる任意の部分文字列との出現頻度の割合を調べ、全ての割合の平均とすることで、キーワードに依存せず語らしさを計算でき、また、任意の部分文字列を考慮しているので、文字列に関する少数の偏った情報から計算されることによる語らしさの誤りを防ぐことが可能となる。
【0041】
また、上記のある文字列が1文字である場合は部分文字列が該文字列自身のため、常に語らしさが変わらないという問題について、該文字列に前(後)の文字列追加した文字列と該文字列の前(後)の文字列との出現頻度の割合や、事前に準備された文書集合中における該文字列の出現頻度の割合を用いることで、1文字という特殊な場合の語らしさを精度よく計算できる。
【0042】
なお、図3の構成においては、以上の各処理は全て、演算手段としてのCPU11によって実行される。よって、以上の各処理の手順をCPU11に実行させる上述の単語分割プログラム21をコンピュータ読み取り可能な記憶媒体を通じて通常のコンピュータに導入するだけで、本実施形態と同様の効果を容易に得ることが出来る。
【0043】
また、実際には上述の統計情報を生成するための手順をCPU11に実行させるモジュールについても単語分割プログラム21の一部として設けておくこともできる。
また、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【0044】
【発明の効果】
以上説明したように、本発明によれば、キーワードに依存せずに語らしさを求めることができるとともに、文字列に関する少数の偏った情報から計算されることによる語らしさの誤りを防止できるようなり、統計量による単語分割を精度良く行うことが可能となる。
【図面の簡単な説明】
【図1】 本発明の一実施形態に係る単語分割処理の処理手順の概要を示すフローチャート。
【図2】 本発明の一実施形態に係る単語分割装置の構成例を示すブロック図。
【図3】 本発明の一実施形態に係るプログラムの構成およびそのプログラムを実行するコンピュータの構成例を示すブロック図。
【図4】 文書集合から求めておいた任意の文字列に対する出現頻度および文書集合全体の文字数の一例を示す図。
【図5】 上記単語分割処理で使用される文字列結束度の計算式の一例を示す図。
【図6】 上記単語分割処理で算出される文字列結束度の一例を示す図。
【図7】 上記単語分割処理で行われる、入力データ全体での文字列結束度の総和を計算する処理を説明するための図。
【符号の説明】
100〜400…ステップ、1000…単語分割装置、1100…文字列結束度計算部、1200…最適文字列決定部、11…CPU、12…メモリ、21…単語分割プログラム、31…文字列入力処理部、32…文字列結束度計算処理部、33…最適文字列決定処理部。

Claims (4)

  1. 入力した文字列である入力データを単語に分割する単語分割装置であって、
    事前に準備した文書集合における文字列の出現頻度を利用することにより、入力データに含まれる全ての文字列について、該文字列と該文字列に含まれる任意の部分文字列それぞれとの間の出現頻度の割合の平均を該文字列の語らしさを示す文字列結束度として算出する処理を実行する文字列結束度計算手段と、
    前記文字列結束度計算手段によって得られた前記全ての文字列それぞれの文字列結束度に基づいて前記入力データ全体として文字列結束度の総和が最大となる文字列の並びを決定し、その決定された並びに対応する各文字列を単語として出力する最適文字列決定手段とを具備することを特徴とする単語分割装置。
  2. 前記文字列結束度計算手段は、入力データに含まれる全ての文字列のうち文字列が1文字である文字列については、該文字列にその直前の文字列を付加した文字列と該直前の文字列との間の出現頻度の割合と、該文字列にその直後の文字列を付加した文字列と該直後の文字列との間の出現頻度との割合と、前記文書集合における該文字列の出現頻度の割合とに基づいて、該文字列の語らしさを示す文字列結束度を算出することを特徴とする請求項記載の単語分割装置。
  3. 請求項1または2のいずれか1項記載の単語分割装置を構成する前記文字列結束度計算手段および前記文字列結束度計算手段としてコンピュータを機能させる単語分割プログラム
  4. 請求項3記載の単語分割プログラムが記憶されたコンピュータ読み取り可能な記憶媒体。
JP2003146673A 2003-05-23 2003-05-23 単語分割装置、記憶媒体およびプログラム Expired - Fee Related JP4007504B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003146673A JP4007504B2 (ja) 2003-05-23 2003-05-23 単語分割装置、記憶媒体およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003146673A JP4007504B2 (ja) 2003-05-23 2003-05-23 単語分割装置、記憶媒体およびプログラム

Publications (2)

Publication Number Publication Date
JP2004348584A JP2004348584A (ja) 2004-12-09
JP4007504B2 true JP4007504B2 (ja) 2007-11-14

Family

ID=33533463

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003146673A Expired - Fee Related JP4007504B2 (ja) 2003-05-23 2003-05-23 単語分割装置、記憶媒体およびプログラム

Country Status (1)

Country Link
JP (1) JP4007504B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5284117B2 (ja) * 2009-01-13 2013-09-11 株式会社東芝 語分割装置および方法
CN106708798B (zh) * 2015-11-16 2020-03-31 阿里巴巴集团控股有限公司 一种字符串切分方法及装置

Also Published As

Publication number Publication date
JP2004348584A (ja) 2004-12-09

Similar Documents

Publication Publication Date Title
JP3973549B2 (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP4654745B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP5377889B2 (ja) 言語処理装置およびプログラム
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JPH0689302A (ja) 辞書メモリ
US20160365093A1 (en) System and method for automatic language model selection
US20060241936A1 (en) Pronunciation specifying apparatus, pronunciation specifying method and recording medium
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
JP2011118872A (ja) 未登録語のカテゴリを決定する方法と装置
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP5189413B2 (ja) 音声データ検索システム
JP4007504B2 (ja) 単語分割装置、記憶媒体およびプログラム
JP2008204399A (ja) 略語抽出方法、略語抽出装置およびプログラム
JP2013134753A (ja) 誤り文修正装置、誤り文修正方法およびプログラム
WO2018179729A1 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
KR102519955B1 (ko) 토픽 키워드의 추출 장치 및 방법
JP2005339347A (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP6907703B2 (ja) 解析装置、解析方法、および解析プログラム
JP2007148630A (ja) 特許分析装置、特許分析システム、特許分析方法およびプログラム
JP2009140411A (ja) 文章要約装置および文章要約方法
JP2009157458A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070821

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20070823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070823

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100907

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110907

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120907

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130907

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees