JP2010165040A - 語分割装置および方法 - Google Patents

語分割装置および方法 Download PDF

Info

Publication number
JP2010165040A
JP2010165040A JP2009004939A JP2009004939A JP2010165040A JP 2010165040 A JP2010165040 A JP 2010165040A JP 2009004939 A JP2009004939 A JP 2009004939A JP 2009004939 A JP2009004939 A JP 2009004939A JP 2010165040 A JP2010165040 A JP 2010165040A
Authority
JP
Japan
Prior art keywords
character string
frequency
word
input
abbreviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009004939A
Other languages
English (en)
Other versions
JP5284117B2 (ja
Inventor
Yumi Wakagi
裕美 若木
Kazuo Sumita
一男 住田
Masaru Suzuki
優 鈴木
Hiroko Fujii
寛子 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009004939A priority Critical patent/JP5284117B2/ja
Publication of JP2010165040A publication Critical patent/JP2010165040A/ja
Application granted granted Critical
Publication of JP5284117B2 publication Critical patent/JP5284117B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】形態素解析器では分割できないような新語や造語であっても、語分割することが可能となる。
【解決手段】文字列の入力を受け付け入力文字列を得る入力手段101と、入力文字列の全ての文字間で入力文字列を2分割し、前半文字列と後半文字列とからなる分割文字列を得る分割手段102と、入力文字列が出現した度数を示す数である第1頻度と、前半文字列が出現した度数を示す数である第2頻度と、後半文字列が出現した度数を示す数である第3頻度を取得する取得手段103と、第1頻度の値と、第2頻度の値および第3頻度の値のうちの小さい方の値との比により、複数の分割文字列のうちの比が最小となる分割文字列を最適分割文字列として判定する第1判定手段104と、最適分割文字列に含まれる最適前半文字列および最適後半文字列の少なくとも1つが、停止条件を満たす場合は、基本語として判定する第2判定手段105と、を具備する。
【選択図】図1

Description

本発明は、語分割装置および方法に関する。
従来では、略称生成のための語への分割として、形態素解析器やその他の辞書情報が用いられている。また、英語の語分割の場合には、トークンデータベースなどを参照して検索をおこない語句を分割している(例えば、特許文献1参照)。
特表2008−515107公報
しかし、形態素解析器などを用いる場合、その辞書中に適切な単語が登録されていなければ適切な語分割をおこなうことができないことがある。例えば、新語や造語によって構成される名称では、名称に含まれる基本語が形態素解析器などの辞書に単語が登録されていない語(未知語)となり、語分割ができない。特に、テレビ番組の番組表データ(EPG(Electronic Program Guide)データ)のような日々更新される情報を対象とする領域では、新しい芸能人が現れたり、新しい番組名が現れたりするため未知語となりやすい。さらに、ひらがなや漢字にカタカナや英語が混在する語は、判別できずに未知語として判定されやすい。このような未知語に対して、基本語データや形態素解析器の辞書に蓄えてあるだけのデータでは充分に対応することが困難であり、辞書の更新が頻繁に必要となる。
しかし、未知語に対する辞書の更新を人手でおこなうのはコストがかかる。このように形態素解析を用いた場合、新語や造語に対して略称生成のための語に分割することが難しい。
本発明は、上記の課題を解決するためになされたものであり、名称等の文字列が形態素解析器では分割できないような新語や造語であっても、語分割することが可能となる語分割装置および方法を提供する。
上述の課題を解決するため、本発明に係る語分割装置は、文字列の入力を受け付け入力文字列を得る入力手段と、前記入力文字列の全ての文字間で該入力文字列を2分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数よりも1少ない数だけ得る分割手段と、前記入力文字列が出現した度数を示す数である第1頻度と、前記前半文字列が出現した度数を示す数である第2頻度と、前記後半文字列が出現した度数を示す数である第3頻度を取得する取得手段と、前記第1頻度の値と、前記第2頻度の値および前記第3頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定する第1判定手段と、前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも1つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定する第2判定手段と、を具備することを特徴とする。
本発明の語分割装置および方法によれば、名称等の文字列が形態素解析器では分割できないような新語や造語であっても、語分割することが可能となる。
第1の実施形態に係る語分割装置を示すブロック図。 語句分割部の動作を示すフローチャート。 語分割処理の一例を示す図。 文字列頻度データの一例を示す図。 語分割処理の別例を示す図。 変形例に係る語分割装置を示すブロック図。 第2の実施形態に係る語分割装置を示すブロック図。 略称生成部の動作を示すフローチャート。 第3の実施形態に係る語分割装置を示すブロック図。 略称生成部および略称候補選定部の動作を示すフローチャート。
以下、図面を参照しながら本発明の実施形態に係る語分割装置および方法について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作をおこなうものとして、重ねての説明を省略する。
(第1の実施形態)
本発明の本実施形態に係る語分割装置は、辞書や単語データを利用することなく外部にある文字列頻度データ等を利用することで、入力文字列の分割を文字列頻度のみを用いて語分割する。
第1の実施形態に係る語分割装置について図1を参照して説明する。
本実施形態に係る語分割装置100は、入力部101、2分割部102、文字列頻度測定部103、分割位置判定部104、停止条件判定部105、出力部106を含む。また以下の本文中では、2分割部102、文字列頻度測定部103、分割位置判定部104、停止条件判定部105、をまとめて語句分割部107と呼ぶ。
入力部101は、氏名、団体名、番組や製品の名称などの文字列を受け付け、2分割部102へ送る。入力部101へ入力された文字列を、以下で入力文字列と呼ぶことがある。また、文字列は1文字だけの場合も含む。
2分割部102は、入力部101から受け取った入力文字列を2分割して文字列頻度測定部103へ送る。2分割部102の詳細な動作は図3を参照して説明する。
文字列頻度測定部103は、2分割部102から受け取った2分割された入力文字列(以下分割文字列という)全てと分割前の入力文字列との頻度を、外部にあるデータベース108を利用して測定し、測定結果を分割位置判定部104へ送る。ここで外部にあるデータベース108は、webなどにおける文字列頻度データ、既存の文書データ、既存の文字列頻度辞書などである。また、頻度とは、webなど外部にあるデータベース中または既存の文書中等で特定の文字列が出現した度数(出現回数)を示す数である。この度数とは例えば、webのデータベース中では、webにおける文字列のヒット数や、文字列を含むweb文書またはコンテンツのヒット件数等である。既存の文書データ中では、ある文書内における特定の文字列の出現回数や、特定の文字列を含む文書数である。
分割位置判定部104は、文字列頻度測定部103から得た分割文字列の組の頻度データと、入力文字列の頻度データとを用いて入力文字列の最も適した分割位置を判定し停止条件判定部105へ送る。分割位置判定部104の詳細な動作は図3を参照して説明する。
停止条件判定部105は、分割位置判定部104から入力された分割文字列が停止条件を満たすかどうかを判定し、停止条件を満たしていないのであれば、停止条件を満たすまで再帰的に分割文字列を2分割部102へ送り新たな分割文字列を生成する。停止条件を満たすのであれば、分割文字列を出力部106へ送る。以下では、語句分割部107の処理を終えて出力された語を、入力文字列を分割する際にある条件下でその条件に最も適した位置で分割されたことを示す基本語として定義する。この条件は、例えば、姓名であれば名字と名前で分割したり、略語であれば略語を構成する基となる略称になりやすい語となるように分割をおこなう。
出力部106は、停止条件判定部105で停止条件を満たした分割文字列を受け取って基本語として外部へ出力する。
次に、文字列を入力した場合の語句分割部107の動作について図2のフローチャートおよび図3、図4を参照して説明する。
入力文字列の例に、番組名として「たべるのトびら」を入力した場合を示す。なお、本実施例では外部にあるデータベース108を利用して、文字列頻度測定をおこなう例について説明する。
はじめにS201では、入力部101へ入力文字列として「たべるのトびら」を入力する。そして入力文字列「たべるのトびら」を2分割部102へ送る。
次にS202では、2分割部102において、入力文字列「たべるのトびら」を2分割する全ての分割をおこなう。全ての分割をおこなった例を図3を参照して説明する。分割位置を表すi(i番目の文字の後ろで分割)を用いると、iが1から6までとなる6通りの分割をおこなう。つまり、「た/べるのトびら」、「たべ/るのトびら」、「たべる/のトびら」、「たべるの/トびら」、「たべるのト/びら」、「たべるのトび/ら」という全ての文字間において入力文字列を分割し、分割文字列を生成する。ただし、「/」記号は、語分割位置を表す。ここで各文字列を、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列としてj(j=1が前半文字列、j=2が後半文字列)を用いてSijと表記することにする。「たべるのトびら」の分割の場合、「た」を前半文字列であるS11、「べるのトびら」を後半文字列であるS12、同様に「たべ」をS21、「るのトびら」をS22、・・・、「たべるのトび」をS61、「ら」をS62と呼ぶことにする。また、分割前の入力文字列「たべるのトびら」をS0と呼ぶことにする。なお、分割する際の順序は関係なく先頭文字から順に分割してもよいし、ランダムに分割してもよい。いずれの分割順序おいても、全ての文字間において重複無く入力文字列を分割すればよい。
次にS203では、文字列頻度測定部103において、2分割部102から受け取ったS0とSi1とSi2(i=1からnまでとし、nは(S0の文字列長−1)とする)の文字列頻度を測定する。文字列頻度の測定対象となるデータベース108は、例えば、前記外部にある文字列頻度データにより測定をおこなう。
文字列頻度データの測定例としては、Web検索用のAPI(Application Programming Interface)を利用し、頻度を測定したい各文字列をダブルクォーテーション(「″」)で囲んだ文字列を検索語として検索結果数(文書数)を取得することで得る。このとき、前記文字列が「たべる」であるとき、検索語は「″たべる″」となる。また、前記の既存の文書データ中での各文字列の頻度測定する場合は、例えば組織内で保持するデータ等の文書データに対し、頻度測定したい各文字列の頻度を測定することで得られる。さらに、前記の既存の文字列頻度辞書を利用した頻度測定とは、図4に示したようなデータを保持したテーブルを別途用意し、このテーブルから頻度を得る。図4のデータは、前記文書データから、単語ではなくm文字(mは自然数)までの文字数の文字列(文字列データ401)を作成し、各文字列の頻度(文字列頻度データ402)を前記文書データ中で測定しておくことによって得る。
ここでは、データベース108から得られる文字列Sの文字列頻度をHit(S0)、Hit(Si1)、Hit(Si2)(i=1からnまで)として表し、対応付けて取得しておく。
S204では、分割位置判定部104において、S203で取得した文字列頻度データ402から最適な分割位置を判定する。ここでは、文字列の組Si1とSi2と、分割前の文字列S0の頻度から、関連度Rを計算する。関連度Rは、例えば次のような(1)式から計算される。
R(i)=Hit(S0)/min(Hit(Si1),Hit(Si2))・・・(1)
この式を用いて、これを最小にするi=kの分割位置を計算し、Sk1とSk2を出力とする。i=4のときのR(i)を計算する例を図3を参照して説明すると、i=4のとき分割文字列は、S41=「たべるの」、S42=「トびら」であり、「たべるの/トびら」と分割すると推定される。また、関連度Rについて計算すると、S0である「たべるのトびら」の文字列頻度がHit(S0)=11000000であり、「たべるの」の文字列頻度がHit(S41)=1890000、「トびら」の文字列頻度がHit(S42)=12900000であったとする。これらの文字列頻度を用いて関連度R(4)を計算した結果は、(1)式よりR(4)=5.851(ここでは小数点第4位を四捨五入)が得られる。なお、min(Hit(Si1),Hit(Si2))を計算する際に、Hit(Si1),Hit(Si2)のどちらかが0であった場合は該当なしとして候補から除いてもよい。
このように他の分割位置iについても同様に関連度Rを計算して、関連度Rが最も小さい値が入力文字列を分割するのに最適位置として推定する。ここではR(4)が一番小さいと仮定し、「たべるの」、「トびら」を基本語としてS205に進む。
同じように、入力文字列が「ひめちゃまかりん」という文字列であった場合を図5を参照して説明する。「たべるのトびら」と同様に、「ひめちゃまかりん」に対してS202およびS203の処理をおこない、2分割部102で7通りの語分割をおこなって、それぞれに対して文字列頻度を測定する。次に、ここでは一例としてi=5の場合、S51=「ひめちゃま」、S52=「かりん」であり、これらの文字列頻度を測定する。Hit(S51)=931000、Hit(S52)=17300000、「ひめちゃまかりん」の文字列頻度がHit(S0)=899000であり、このときの(1)式を用いて関連度R(5)を計算する。仮に、他の関連度よりもR(5)が一番小さければ、R(5)は「ひめちゃま/かりん」と分割すると推定され「ひめちゃま」と「かりん」を基本語としてS205に進む。
なお、R(i)の式は、単語間の関係を測定するシンプソン係数(単語Aと単語Bの関係を測る場合、Simpson(A,B)=A∩B/min(A,B))という式を改良したものである。特異な文字列を除去した索引付けでは、シンプソン係数をそのまま用いてもうまく計算できない場合がある。このため、外部の文字列頻度データ402を利用するだけで語分割をおこなうことができる式R(i)を用いている。
S205では、停止条件判定部105において、S204から受け取った分割文字列が停止条件を満たすかどうかを判定する。停止条件は、例えば、分割後の各文字列が漢字文字2文字以下、カタカナまたはひらがな文字4字以下である場合や、あるいは、文字数の代わりにモーラ数としてもよい。
ここで、入力文字列「たべるのトびら」から、S204において「たべるの」と「トびら」という分割を得た場合には、「たべるの」はひらがな4文字以下であり、これをそのまま出力としてS206に進む。また、「トびら」もカタカナとひらがなの4字以下であるため、これをそのまま出力としてS206に進む。一方、同様の停止条件であるときに、入力文字列「ひめちゃまかりん」からS204において「ひめちゃま」と「かりん」という分割を得た場合には、「かりん」はひらがな4字以下であるため、このまま出力とする。しかし、「ひめちゃま」はひらがな4字より多いため停止条件を満たさないので、「ひめちゃま」をS201へ戻し、更なる分割位置を求める。こうしてすべての分割文字列が停止条件を満たすまで再帰的に文字列の分割処理を繰り返す。
S206では、S205で停止条件を満たした分割文字列を基本語として出力する。ここでは「たべるの」と「トびら」を出力する。上述したステップにより語句分割部107の処理を終了する。
(変形例)
次に図1で示した語分割装置100の変形例を図6に示す。
本変形例に係る語分割装置600は、図1に示した語分割装置100に加え、さらに形態素解析部601を含む。語分割装置600に含まれる他の構成は上述した第1の実施形態と同様の動作をおこなうのでここでの説明は省略する。
上述した第1の実施形態では、主に番組名や氏名など単語単位で、未知語の開始位置と終了位置が認識できる状態で入力をおこなうことを想定しているが、本変形例では、単語単位だけではなく、文章で未知語の終了位置がわからない状態の入力においても形態素解析をおこなうことにより未知語を単語単位で抽出して基本語への分割をおこなうことができる。
形態素解析部601は、入力部101から入力文字列を受け取り、形態素解析をおこなった結果、未知語と判定されて1語になったり、名称等の扱いで1語となった文字列を、語句分割部107へ送る。形態素解析器の代わりに、助詞「は」「の」などを分割位置として語分割してもよい。例えば、「T芝S郎の金曜日のエンタメアツメテ」という入力文字列の場合、形態素解析部601によって形態素解析をおこなう。その結果、人名「T芝S郎」や造語「エンタメアツメテ」が未知語となった場合に、語句分割部107へ「T芝S郎」や「エンタメアツメテ」を入力として与え、姓名分割や語分割をおこなう。
また、語句分割部107では、人名を入力として与え、姓名分割をおこなってもよい。さらに、語句分割部107では、複合語を入力として与え、複合語を構成する基本語への分割をおこなってもよい。
以上に示した第1の実施形態によれば、形態素解析器では分割できないような新語や造語とった未知語であっても、語分割することが可能となる。また、文章を入力した場合にも、形態素解析をかけることにより未知語を抽出して、その未知語に対して語分割をおこなうことができる。さらに、適切な2分割位置を判定する計算で求めるため、全部分文字列から結束度計算をするよりも外部へのアクセスや計算量を少なく抑えて計算することができる。
(第2の実施形態)
本発明に係る第2の実施形態について図7を参照して説明する。本実施形態に係る語分割装置700は、図1で示した語分割装置100に加え、さらに略称生成部701を含む。語分割装置700に含まれる他の構成は、上述した第1の実施形態の語分割装置100と同様の動作をおこなうのでここでの説明は省略する。
第1の実施形態に係る語分割装置100と異なる点は、基本語への語分割をおこなった後に、略称生成をおこなうことによって略称候補を取得することである。
略称生成部701では、語句分割部107から受け取った基本語から略称生成規則によって略称候補を生成し、出力部106へ送る。あるいは各文字列を単語として機械学習の素性として用いて、略称候補の生成をおこない出力部106へ送ってもよい。略称生成規則とは、例えば、入力語を分割した各基本語のうち略称生成に用いる、基本語および文字の位置を指定するものである。例えば、文字位置(例えば、語頭や語末)を組み合わせて構成したり、長音や撥音を除く処理を加えて生成する手法といったものである。一例としては、正式名称が「首都間中央自動車道」(首都間/中央/自動車/道)の場合、「第1、第2、第4番目の基本語の語末の1文字を選択」という略称生成規則であれば、「首都間」の「間」、「中央」の「央」、「道」の「道」が各基本語より選択され、「間央道」と略される。また、正式名称が「第三中学校」(第三/中学校)の場合、「第1基本語の語末の1文字および第2基本語の語頭の1文字を選択」という略称生成規則であれば、「第三」の「三」、「中学校」の「中」が選択され、「三中」と略される。さらに「長音を除く」という略称生成規則であれば、基本語「スーパー」は「スパ」と略される。また、機械学習には、例えば、CRF(Conditional Random Fields)といった手法があり、各文字に対し略称に用いられる文字かどうかを判定する。
略称生成部701での処理の例を図8のフローチャートを参照して説明する。
はじめに、入力部101への入力文字列が「たべるのトびら」であった場合、語句分割部107での語分割処理の結果、「たべるの」「トびら」という基本語がそれぞれ得られたとする。
S801では、略称生成部701へ「たべるの」「トびら」という2語(入力基本語804)の入力をおこなう。
次にS802では、略称生成規則適用の際、語頭2文字ずつを得る略称生成を用いて略称生成する場合は、「たべるの」と「トびら」を基本語として「たべトび」という略称が生成される。略称生成規則が複数あった場合には、この他にも複数の略称候補が生成される(略称候補805)。この略称候補805を生成したあとはS803に進む。
S803では、S802で生成された略称候補805を出力する。以上のステップにより略称生成部701での処理を終了する。
また、語句分割部107で何回目の語分割であるかを保持し、分割位置だけでなく分割回数も合わせて略称生成部701へ入力してもよい。分割位置および分割回数は停止条件判定部105で記憶することを想定しているが、特に限定されずどこで記憶していてもよい。分割位置だけでなく、分割回数も略称生成部701への入力とすることで、例えば略称生成部701で分割回数が少ない分割位置からなる略称候補805を出力する。あるいは、分割回数が少ない順に候補を順位付けして出力しても良い。これは少ない分割回数の方が、略称候補805の基として選ばれやすい基本語から構成されるからである。例えば、入力文字列「ひめちゃまかりん」の場合、1回目の分割で「ひめちゃま」「かりん」とそれぞれ基本語に分割されたあとに、文字列「ひめちゃま」について再度分割をおこない、「ひめ」「ちゃま」に分割されたとする。このとき、分割位置だけの情報では、「ひめ/ちゃま/かりん」という3語の基本語から構成されることになる。
ここで分割回数も追加情報として与えれば、「ひめ /2ちゃま /1かりん」と分割されることになる。ただし、「/i」は、i番目の分割位置であることを表す。略称生成規則が、「任意に2語から語頭2モーラをつなぎ合わせて作成する」だった場合、「ひめちゃま」「ひめかり」「ちゃまかり」という3候補が生成される。しかし、分割回数を追加情報として与え、このときの略称生成規則が例えば、「分割回数の少ない位置で分割された2語の語頭2モーラから作成される」であった場合、「ひめかり」のみ略称候補805として選択することができる。
上述した第2の実施形態によれば、基本語から略称生成規則によって自動的に略称を生成することが可能となる。また、さらに再帰的に分割を繰り返すため、何回目の分割であったかという情報からより分割されやすい分割位置を測ることができる。
(第3の実施形態)
本発明に係る第3の実施形態について図9を参照して説明する。本実施形態に係る語分割装置900は、図7で示した第2の実施形態に係る語分割装置700に加え、さらに略称候補選定部901を含む。文字列頻度測定部103は、略称候補選定部901と文字列頻度データをやり取りする点で第1の実施形態および第2の実施形態と異なるが、その他は同様の動作をおこなう。
語分割装置900に含まれる他の構成は、上述した第2の実施形態に係る語分割装置700とほぼ同様の動作をおこなうのでここでの説明は省略する。
第2の実施形態と異なる点は、略称生成部701により生成された略称候補805をそのまま出力するのではなく、複数の略称候補805に対し、略称候補805の頻度あるいは、略称候補805と入力文字列との共起頻度が閾値よりも小さい略称候補805を削除したり、共起頻度を参照して順位付けをおこなって、選定した略称のみを出力部106へ送る点である。閾値は、文字列の出現数により、統計的に決定される値である。換言すれば、略称候補805の文字列の頻度が閾値以上であれば、その略称候補805は入力文字列の略称としての正解率、つまり信頼度が高いといえる。逆に、略称候補805の文字列の頻度が閾値よりも小さければ、その略称候補805の略称としての信頼度は低くなる。共起頻度とは、入力文字列と略称候補805がどれほど関連付いて出現しているかを示す度数(出現回数)である。例えばWeb上で入力文字列と略称候補との関連を検索し、その度数を測定することで得るといったことが考えられる。
略称候補選定部901は、略称生成部701の処理により生成した略称候補805を受け取り、または文字列頻度測定部103から測定した共起頻度を取得して参照し、複数の略称候補の順位付けをおこなって高い順位の略称候補を出力部106へ送ったり、略称候補の中から閾値により選定した略称候補のみ出力部106へ送る。
本実施形態における略称生成部701と略称候補選定部901とでの基本語から略称候補の選定処理の一例を図10のフローチャートを参照して説明する。入力部101への入力文字列が「たべるのトびら」であった場合、語句分割部107での語分割処理の結果、「たべるの」「トびら」という分割済みの語が得られたとする。
はじめにS1001では、略称生成部701へ「たべるの」「トびら」という2語(入力基本語804)が入力される。
次にS1002では、略称生成部701において、語頭2文字ずつを得る略称生成規則が適用された場合、「たべるの」と「トびら」を基本語として「たべトび」という略称が生成される。このとき、略称生成規則が複数ある場合には、「たべトび」以外にも幾つかの略称候補805が生成される。
続いてS1003では、略称候補選定部901において、略称生成部701から受け取った複数個の略称候補805の選定および順位付けをおこなう。例えば、入力文字列「たべるのトびら」と各略称候補805の2語を検索語とし、文字列頻度測定部103を通してWeb検索用APIで検索結果数(共起頻度)を得る。略称候補805として、「たべトび」「たトび」「たべト」の3語があった場合、検索語A「″たべるのトびら″ ″たべトび″」、検索語B「″たべるのトびら″ ″たトび″」、検索語C「″たべるのトびら″ ″たべト″」の3つをそれぞれ検索語として、Web上での頻度を得る。その結果、A:86700、B:0、C:85200という頻度(略称候補頻度1005)であった場合、頻度が一番高かった「たべトび」を選定し、S1004に進む。なお、閾値を用いて略称候補805の選定をおこなう場合は、例えば閾値よりも小さい頻度である略称候補805は選定されずに出力をおこなわないとしたり、逆に、閾値以上の頻度である略称候補805は全て選定して出力をおこなう等の処理をしてもよい。
また、閾値と順位付けを同時におこない選定処理をしてもよい。例えば、略称候補805を3つ選定して出力する場合を想定する。順位付けにより選定された上位3つの略称候補805が、上位2つの略称候補805の頻度は閾値以上であり、3番目の略称候補805の頻度は閾値以下であった場合は、閾値以上の2つの略称候補805は略称としての信頼度が高く、閾値よりも小さい1つの略称候補805は、選定はされるものの、略称としての信頼度は低いということができる。
また、検索エンジンのインデキシングの関係で件数が変化する事情を考慮してもよい。例えば、先ほどの検索語Aから検索語Cで検索し、Web上での頻度を得た結果、それぞれ、A:85200、B:0、C:86700という頻度(略称候補頻度1005)であった場合、「たべト」が頻度が一番高い候補となってしまう。しかし、「たべトび」(頻度が0でない単語)と、頻度が一番高かった「たべト」の2つの文字列は、包含関係(「たべト」+「び」⇒「たべトび」)にあり、実際は「たべトび」が正しい略称であるのに検索エンジンでは「たべト」と「たべトび」の両方が単語として登録されている可能性がある。この場合、「たべトび」を含んでいるのに「たべト」でしかインデキシングされていない文書は件数として現れない。
このような場合を考慮するため、検索結果上位の要約(スニペット)中を調べ、略称候補805の文字列の包含関係(ある文字列の先頭からの部分文字列または後方からの部分文字列が、別の文字列と一致しているかどうか)を確認する。任意の2つの略称候補805のうち、ある候補(文字長が長い方)が、他方(文字長が短い方)を包含するような文字列は、文字長が短い方の略称候補805での検索結果の要約(スニペット)中に現れる短い方の略称候補805が、長い方の略称候補805の一部になっていないかを調べる。もし、包含関係になっている場合には、文字列長が短い方のWeb上での頻度が、長い方の頻度に因るものと判定し、文字列長が長い略称候補805を選定する。「たべト」と「たべトび」の場合、「たべト」は「たべトび」の先頭からの部分文字列になっているため、検索語Bで検索した結果を調べる。その検索結果中で現れる「たべト」が、「…たべトび…」というフレーズ中に頻出する場合には、「たべトび」を略称候補805として選定して、S1004に進む。
S1004では、出力部106において、略称候補選定部901から受け取った略称候補805の出力をおこなう。以上のステップにより基本語から略称候補805の選定処理を終了する。
また、語句分割部107で保持した、入力文字列の2分割の際に何回目の語分割であるかという情報を利用して、例えば、略称候補選定部901で、分割回数が少ない分割位置からなる略称候補805を優先的に出力してもよい。上述のように、入力文字列「ひめちゃまかりん」を語句分割部107で分割した結果、分割位置と分割回数が「ひめ /2ちゃま /1かりん」となったとする。略称生成規則が、「基本語中の任意の2語の語頭2モーラをつなぎ合わせて作成する」というものであった場合、「ひめちゃま」「ひめかり」「ちゃまかり」という3つの略称候補805が生成される。そして、この略称候補805それぞれに分割回数を追加情報として与える。このとき、図10のS1003で、分割回数のより少ない回数で分割された2語から作成されたものを優先する場合、「/0ひめ /1かり」「/0ひめ /2ちゃま」「/2ちゃま /1かり」という区切り記号iの総和が小さい順に並べ、「ひめかり」(総和が1)、「ひめちゃま」(総和が2)、「ちゃまかり」(総和が3)という順位付けをおこなう。
上述した第3の実施形態によれば、分割された基本語から略称生成が自動的に可能である。さらに、連接確率データを用意する必要がないため、頻度測定をおこなう際に利用する検索エンジン等のデータでも、語分割後の文字列(基本語と原語)を索引付けしていることを前提せずに、語分割前後の関連は未知の状態でも関係付けが可能になる。さらに略称生成規則が複数あり、複数の略称候補が生成された場合に頻度や分割回数による選定等をおこなうことで自動的に複数の略称候補から所望の略称を選定することが可能となる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
100、600、700、900・・・語分割装置、101・・・入力部、102・・・分割部、103・・・文字列頻度測定部、104・・・分割位置判定部、105・・・停止条件判定部、106・・・出力部、107・・・語句分割部、108・・・データベース、401・・・文字列データ、402・・・文字列頻度データ、601・・・形態素解析部、701・・・略称生成部、804・・・入力基本語、805・・・略称候補、901・・・略称候補選定部、1005・・・略称候補頻度。

Claims (11)

  1. 文字列の入力を受け付け入力文字列を得る入力手段と、
    前記入力文字列の全ての文字間で該入力文字列を2分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数より1少ない数だけ取得する分割手段と、
    前記入力文字列が出現した度数を示す数である第1頻度と、前記前半文字列が出現した度数を示す数である第2頻度と、前記後半文字列が出現した度数を示す数である第3頻度を取得する取得手段と、
    前記第1頻度の値と、前記第2頻度の値および前記第3頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定する第1判定手段と、
    前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも1つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定する第2判定手段と、を具備することを特徴とする語分割装置。
  2. 前記取得手段は、外部にある第1データベース内において前記入力文字列または前記分割文字列を検索した結果である前記第1頻度、前記第2頻度、および前記第3頻度を取得することを特徴とする請求項1に記載の語分割装置。
  3. 前記取得手段は、複数の文字列を記憶し文字列ごとに、文字列と該文字列の頻度とを関連付けて格納している第2データベースから前記第1頻度、前記第2頻度、および前記第3頻度を取得することを特徴とする請求項1に記載の語分割装置。
  4. 前記取得手段は、既存の文書データを取得して、該文書データ中に前記入力文字列、前記前半文字列、および前記後半文字列が出現した度数をそれぞれ測定することにより、前記1頻度、前記第2頻度、および前記第3頻度を取得することを特徴とする請求項1に記載の語分割装置。
  5. 前記第2判定手段は、前記最適前半文字列および前記最適後半文字列の少なくとも1つが前記停止条件を満たさない場合は、該最適前半文字列および該最適後半文字列のうち該停止条件を満たさない文字列を新たな入力文字列として前記分割手段へ送り、該分割手段は該新たな入力文字列に基づき新たな分割文字列を得ることを特徴とする請求項1から請求項4のいずれか1項に記載の語分割装置。
  6. 前記第2判定手段は、前記最適前半文字列および前記最適後半文字列の少なくとも1つが前記停止条件を満たさない場合は、該最適前半文字列および該最適後半文字列のうち該停止条件を満たさない文字列を新たな入力文字列として前記分割手段へ送り、該分割手段は該新たな入力文字列に基づき新たな分割文字列を得、
    複数の前記基本語内の該基本語ごとに先頭文字からの位置であって、指定された文字位置にあるN個(Nは0以上の整数)の文字列を略称候補文字列として選択し、複数の該略称候補文字列を指定された組み合わせにより少なくとも2文字以上の第1略称を生成する生成手段をさらに具備することを特徴とする請求項1から請求項4のいずれか1項に記載の語分割装置。
  7. 複数の前記第1略称から、前記第1データベース中および前記既存の文書データ中の少なくとも1つにおいて、同一文書内で前記入力文字列および前記第1略称が共起した頻度を表わす共起頻度に対する、該共起頻度の高低を示す閾値と、該共起頻度が高い前記第1略称ほど上位に位置させる順位との少なくとも1つにより選定をおこない、該閾値により選定する場合は該共起頻度が該閾値以上の第1略称を選定し、該順位により選定する場合は該順位が上位であるほど優先的に第1略称を選定する選定手段をさらに具備することを特徴とする請求項6に記載の語分割装置。
  8. 前記第1略称から選択した第2略称の共起頻度が、該第2略称を全て包含する略称である第3略称の共起頻度よりも大きい場合は、前記第3略称を優先して出力することを特徴とする請求項7に記載の語分割装置。
  9. 前記生成手段は、前記入力文字列の分割回数が少ない前記基本語の順に前記略称候補文字列を組み合わせて前記略称を生成することを特徴とする請求項6から請求項8のいずれか1項に記載の語分割装置。
  10. 前記文字列が文章である場合に、該文字列を形態素解析し、該文字列に含まれていて1語である文字列を1語文字列として取得する解析手段をさらに具備し、
    前記分割手段は、前記1語文字列を入力文字列として取得し、該入力文字列を分割することを特徴とする請求項1から請求項9のいずれか1項に記載の語分割装置。
  11. 文字列の入力を受け付け入力文字列を得、
    前記入力文字列の全ての文字間で該入力文字列を2分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数よりも1少ない数だけ得、
    前記入力文字列が出現した度数を示す数である第1頻度と、前記前半文字列が出現した度数を示す数である第2頻度と、前記後半文字列が出現した度数を示す数である第3頻度を取得し、
    前記第1頻度の値と、前記第2頻度の値および前記第3頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定し、
    前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも1つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定することを特徴とする語分割方法。
JP2009004939A 2009-01-13 2009-01-13 語分割装置および方法 Expired - Fee Related JP5284117B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009004939A JP5284117B2 (ja) 2009-01-13 2009-01-13 語分割装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009004939A JP5284117B2 (ja) 2009-01-13 2009-01-13 語分割装置および方法

Publications (2)

Publication Number Publication Date
JP2010165040A true JP2010165040A (ja) 2010-07-29
JP5284117B2 JP5284117B2 (ja) 2013-09-11

Family

ID=42581169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009004939A Expired - Fee Related JP5284117B2 (ja) 2009-01-13 2009-01-13 語分割装置および方法

Country Status (1)

Country Link
JP (1) JP5284117B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750665A (zh) * 2013-12-30 2015-07-01 腾讯科技(深圳)有限公司 文本信息的处理方法和装置
JP6837608B1 (ja) * 2020-02-04 2021-03-03 三菱電機株式会社 プログラム作成支援装置、プログラム作成支援方法およびプログラム作成支援プログラム
CN113779990A (zh) * 2021-09-10 2021-12-10 中国联合网络通信集团有限公司 中文分词方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191898A (ja) * 1986-02-18 1987-08-22 富士通株式会社 複合語分割処理方式
JP2004348584A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語分割のための方法、装置、記憶媒体およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191898A (ja) * 1986-02-18 1987-08-22 富士通株式会社 複合語分割処理方式
JP2004348584A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 単語分割のための方法、装置、記憶媒体およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750665A (zh) * 2013-12-30 2015-07-01 腾讯科技(深圳)有限公司 文本信息的处理方法和装置
JP6837608B1 (ja) * 2020-02-04 2021-03-03 三菱電機株式会社 プログラム作成支援装置、プログラム作成支援方法およびプログラム作成支援プログラム
WO2021156940A1 (ja) * 2020-02-04 2021-08-12 三菱電機株式会社 プログラム作成支援装置、プログラム作成支援方法およびプログラム作成支援プログラム
CN113779990A (zh) * 2021-09-10 2021-12-10 中国联合网络通信集团有限公司 中文分词方法、装置、设备及存储介质
CN113779990B (zh) * 2021-09-10 2023-10-31 中国联合网络通信集团有限公司 中文分词方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP5284117B2 (ja) 2013-09-11

Similar Documents

Publication Publication Date Title
JP5870790B2 (ja) 文章校正装置、及び文章校正方法
JP5379138B2 (ja) 領域辞書の作成
JP5445787B2 (ja) 属性抽出方法、システム及びプログラム
KR20100052461A (ko) 단어 확률 결정
JP2006031010A (ja) 固有名称又は部分的な固有名称の認識を提供する方法及び装置
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP5900367B2 (ja) 検索装置、検索方法及びプログラム
JP6599219B2 (ja) 読み付与装置、読み付与方法、およびプログラム
JP5284117B2 (ja) 語分割装置および方法
JP2005038395A (ja) データベース検索装置
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2012185654A (ja) 翻訳装置、翻訳プログラムおよび翻訳方法
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP5491446B2 (ja) 話題語獲得装置、方法、及びプログラム
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
KR20110046098A (ko) 텍스트 색인 장치 및 방법
JP4341077B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
JP5229448B2 (ja) 読み付与装置、およびプログラム
US20220171937A1 (en) Document sentence concept labeling system, training method and labeling method thereof
JP4049141B2 (ja) 文書処理装置、文書処理方法、および、文書処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130529

R151 Written notification of patent or utility model registration

Ref document number: 5284117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees