JP2010165040A

JP2010165040A - 語分割装置および方法

Info

Publication number: JP2010165040A
Application number: JP2009004939A
Authority: JP
Inventors: Yumi Wakagi; 裕美若木; Kazuo Sumita; 一男住田; Masaru Suzuki; 優鈴木; Hiroko Fujii; 寛子藤井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-01-13
Filing date: 2009-01-13
Publication date: 2010-07-29
Anticipated expiration: 2029-01-13
Also published as: JP5284117B2

Abstract

【課題】形態素解析器では分割できないような新語や造語であっても、語分割することが可能となる。
【解決手段】文字列の入力を受け付け入力文字列を得る入力手段１０１と、入力文字列の全ての文字間で入力文字列を２分割し、前半文字列と後半文字列とからなる分割文字列を得る分割手段１０２と、入力文字列が出現した度数を示す数である第１頻度と、前半文字列が出現した度数を示す数である第２頻度と、後半文字列が出現した度数を示す数である第３頻度を取得する取得手段１０３と、第１頻度の値と、第２頻度の値および第３頻度の値のうちの小さい方の値との比により、複数の分割文字列のうちの比が最小となる分割文字列を最適分割文字列として判定する第１判定手段１０４と、最適分割文字列に含まれる最適前半文字列および最適後半文字列の少なくとも１つが、停止条件を満たす場合は、基本語として判定する第２判定手段１０５と、を具備する。
【選択図】図１

Description

本発明は、語分割装置および方法に関する。

従来では、略称生成のための語への分割として、形態素解析器やその他の辞書情報が用いられている。また、英語の語分割の場合には、トークンデータベースなどを参照して検索をおこない語句を分割している（例えば、特許文献１参照）。

特表２００８−５１５１０７公報

しかし、形態素解析器などを用いる場合、その辞書中に適切な単語が登録されていなければ適切な語分割をおこなうことができないことがある。例えば、新語や造語によって構成される名称では、名称に含まれる基本語が形態素解析器などの辞書に単語が登録されていない語（未知語）となり、語分割ができない。特に、テレビ番組の番組表データ（ＥＰＧ（Electronic Program Guide）データ）のような日々更新される情報を対象とする領域では、新しい芸能人が現れたり、新しい番組名が現れたりするため未知語となりやすい。さらに、ひらがなや漢字にカタカナや英語が混在する語は、判別できずに未知語として判定されやすい。このような未知語に対して、基本語データや形態素解析器の辞書に蓄えてあるだけのデータでは充分に対応することが困難であり、辞書の更新が頻繁に必要となる。
しかし、未知語に対する辞書の更新を人手でおこなうのはコストがかかる。このように形態素解析を用いた場合、新語や造語に対して略称生成のための語に分割することが難しい。

本発明は、上記の課題を解決するためになされたものであり、名称等の文字列が形態素解析器では分割できないような新語や造語であっても、語分割することが可能となる語分割装置および方法を提供する。

上述の課題を解決するため、本発明に係る語分割装置は、文字列の入力を受け付け入力文字列を得る入力手段と、前記入力文字列の全ての文字間で該入力文字列を２分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数よりも１少ない数だけ得る分割手段と、前記入力文字列が出現した度数を示す数である第１頻度と、前記前半文字列が出現した度数を示す数である第２頻度と、前記後半文字列が出現した度数を示す数である第３頻度を取得する取得手段と、前記第１頻度の値と、前記第２頻度の値および前記第３頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定する第１判定手段と、前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも１つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定する第２判定手段と、を具備することを特徴とする。

本発明の語分割装置および方法によれば、名称等の文字列が形態素解析器では分割できないような新語や造語であっても、語分割することが可能となる。

第１の実施形態に係る語分割装置を示すブロック図。語句分割部の動作を示すフローチャート。語分割処理の一例を示す図。文字列頻度データの一例を示す図。語分割処理の別例を示す図。変形例に係る語分割装置を示すブロック図。第２の実施形態に係る語分割装置を示すブロック図。略称生成部の動作を示すフローチャート。第３の実施形態に係る語分割装置を示すブロック図。略称生成部および略称候補選定部の動作を示すフローチャート。

以下、図面を参照しながら本発明の実施形態に係る語分割装置および方法について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作をおこなうものとして、重ねての説明を省略する。
（第１の実施形態）
本発明の本実施形態に係る語分割装置は、辞書や単語データを利用することなく外部にある文字列頻度データ等を利用することで、入力文字列の分割を文字列頻度のみを用いて語分割する。
第１の実施形態に係る語分割装置について図１を参照して説明する。
本実施形態に係る語分割装置１００は、入力部１０１、２分割部１０２、文字列頻度測定部１０３、分割位置判定部１０４、停止条件判定部１０５、出力部１０６を含む。また以下の本文中では、２分割部１０２、文字列頻度測定部１０３、分割位置判定部１０４、停止条件判定部１０５、をまとめて語句分割部１０７と呼ぶ。

入力部１０１は、氏名、団体名、番組や製品の名称などの文字列を受け付け、２分割部１０２へ送る。入力部１０１へ入力された文字列を、以下で入力文字列と呼ぶことがある。また、文字列は１文字だけの場合も含む。
２分割部１０２は、入力部１０１から受け取った入力文字列を２分割して文字列頻度測定部１０３へ送る。２分割部１０２の詳細な動作は図３を参照して説明する。

文字列頻度測定部１０３は、２分割部１０２から受け取った２分割された入力文字列（以下分割文字列という）全てと分割前の入力文字列との頻度を、外部にあるデータベース１０８を利用して測定し、測定結果を分割位置判定部１０４へ送る。ここで外部にあるデータベース１０８は、ｗｅｂなどにおける文字列頻度データ、既存の文書データ、既存の文字列頻度辞書などである。また、頻度とは、ｗｅｂなど外部にあるデータベース中または既存の文書中等で特定の文字列が出現した度数（出現回数）を示す数である。この度数とは例えば、ｗｅｂのデータベース中では、ｗｅｂにおける文字列のヒット数や、文字列を含むｗｅｂ文書またはコンテンツのヒット件数等である。既存の文書データ中では、ある文書内における特定の文字列の出現回数や、特定の文字列を含む文書数である。
分割位置判定部１０４は、文字列頻度測定部１０３から得た分割文字列の組の頻度データと、入力文字列の頻度データとを用いて入力文字列の最も適した分割位置を判定し停止条件判定部１０５へ送る。分割位置判定部１０４の詳細な動作は図３を参照して説明する。
停止条件判定部１０５は、分割位置判定部１０４から入力された分割文字列が停止条件を満たすかどうかを判定し、停止条件を満たしていないのであれば、停止条件を満たすまで再帰的に分割文字列を２分割部１０２へ送り新たな分割文字列を生成する。停止条件を満たすのであれば、分割文字列を出力部１０６へ送る。以下では、語句分割部１０７の処理を終えて出力された語を、入力文字列を分割する際にある条件下でその条件に最も適した位置で分割されたことを示す基本語として定義する。この条件は、例えば、姓名であれば名字と名前で分割したり、略語であれば略語を構成する基となる略称になりやすい語となるように分割をおこなう。
出力部１０６は、停止条件判定部１０５で停止条件を満たした分割文字列を受け取って基本語として外部へ出力する。

次に、文字列を入力した場合の語句分割部１０７の動作について図２のフローチャートおよび図３、図４を参照して説明する。
入力文字列の例に、番組名として「たべるのトびら」を入力した場合を示す。なお、本実施例では外部にあるデータベース１０８を利用して、文字列頻度測定をおこなう例について説明する。
はじめにＳ２０１では、入力部１０１へ入力文字列として「たべるのトびら」を入力する。そして入力文字列「たべるのトびら」を２分割部１０２へ送る。

次にＳ２０２では、２分割部１０２において、入力文字列「たべるのトびら」を２分割する全ての分割をおこなう。全ての分割をおこなった例を図３を参照して説明する。分割位置を表すｉ（ｉ番目の文字の後ろで分割）を用いると、ｉが１から６までとなる６通りの分割をおこなう。つまり、「た／べるのトびら」、「たべ／るのトびら」、「たべる／のトびら」、「たべるの／トびら」、「たべるのト／びら」、「たべるのトび／ら」という全ての文字間において入力文字列を分割し、分割文字列を生成する。ただし、「／」記号は、語分割位置を表す。ここで各文字列を、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列としてｊ（ｊ＝１が前半文字列、ｊ＝２が後半文字列）を用いてＳｉｊと表記することにする。「たべるのトびら」の分割の場合、「た」を前半文字列であるＳ１１、「べるのトびら」を後半文字列であるＳ１２、同様に「たべ」をＳ２１、「るのトびら」をＳ２２、・・・、「たべるのトび」をＳ６１、「ら」をＳ６２と呼ぶことにする。また、分割前の入力文字列「たべるのトびら」をＳ０と呼ぶことにする。なお、分割する際の順序は関係なく先頭文字から順に分割してもよいし、ランダムに分割してもよい。いずれの分割順序おいても、全ての文字間において重複無く入力文字列を分割すればよい。
次にＳ２０３では、文字列頻度測定部１０３において、２分割部１０２から受け取ったＳ０とＳｉ１とＳｉ２（ｉ＝１からｎまでとし、ｎは（Ｓ０の文字列長−１)とする）の文字列頻度を測定する。文字列頻度の測定対象となるデータベース１０８は、例えば、前記外部にある文字列頻度データにより測定をおこなう。
文字列頻度データの測定例としては、Ｗｅｂ検索用のＡＰＩ（Application Programming Interface）を利用し、頻度を測定したい各文字列をダブルクォーテーション（「″」）で囲んだ文字列を検索語として検索結果数（文書数）を取得することで得る。このとき、前記文字列が「たべる」であるとき、検索語は「″たべる″」となる。また、前記の既存の文書データ中での各文字列の頻度測定する場合は、例えば組織内で保持するデータ等の文書データに対し、頻度測定したい各文字列の頻度を測定することで得られる。さらに、前記の既存の文字列頻度辞書を利用した頻度測定とは、図４に示したようなデータを保持したテーブルを別途用意し、このテーブルから頻度を得る。図４のデータは、前記文書データから、単語ではなくｍ文字（ｍは自然数）までの文字数の文字列（文字列データ４０１）を作成し、各文字列の頻度（文字列頻度データ４０２）を前記文書データ中で測定しておくことによって得る。
ここでは、データベース１０８から得られる文字列Ｓの文字列頻度をＨｉｔ（Ｓ０）、Ｈｉｔ（Ｓｉ１）、Ｈｉｔ（Ｓｉ２）（ｉ＝１からｎまで）として表し、対応付けて取得しておく。

Ｓ２０４では、分割位置判定部１０４において、Ｓ２０３で取得した文字列頻度データ４０２から最適な分割位置を判定する。ここでは、文字列の組Ｓｉ１とＳｉ２と、分割前の文字列Ｓ０の頻度から、関連度Ｒを計算する。関連度Ｒは、例えば次のような（１）式から計算される。
Ｒ（ｉ）＝Ｈｉｔ（Ｓ０）／ｍｉｎ（Ｈｉｔ（Ｓｉ１），Ｈｉｔ（Ｓｉ２））・・・（１）
この式を用いて、これを最小にするｉ＝ｋの分割位置を計算し、Ｓｋ１とＳｋ２を出力とする。ｉ＝４のときのＲ（ｉ）を計算する例を図３を参照して説明すると、ｉ＝４のとき分割文字列は、Ｓ４１＝「たべるの」、Ｓ４２＝「トびら」であり、「たべるの／トびら」と分割すると推定される。また、関連度Ｒについて計算すると、Ｓ０である「たべるのトびら」の文字列頻度がＨｉｔ（Ｓ０）＝１１００００００であり、「たべるの」の文字列頻度がＨｉｔ（Ｓ４１）＝１８９００００、「トびら」の文字列頻度がＨｉｔ（Ｓ４２）＝１２９０００００であったとする。これらの文字列頻度を用いて関連度Ｒ（４）を計算した結果は、（１）式よりＲ（４）＝５．８５１（ここでは小数点第４位を四捨五入）が得られる。なお、ｍｉｎ（Ｈｉｔ（Ｓｉ１），Ｈｉｔ（Ｓｉ２））を計算する際に、Ｈｉｔ（Ｓｉ１），Ｈｉｔ（Ｓｉ２）のどちらかが０であった場合は該当なしとして候補から除いてもよい。

このように他の分割位置ｉについても同様に関連度Ｒを計算して、関連度Ｒが最も小さい値が入力文字列を分割するのに最適位置として推定する。ここではＲ（４）が一番小さいと仮定し、「たべるの」、「トびら」を基本語としてＳ２０５に進む。
同じように、入力文字列が「ひめちゃまかりん」という文字列であった場合を図５を参照して説明する。「たべるのトびら」と同様に、「ひめちゃまかりん」に対してＳ２０２およびＳ２０３の処理をおこない、２分割部１０２で７通りの語分割をおこなって、それぞれに対して文字列頻度を測定する。次に、ここでは一例としてｉ＝５の場合、Ｓ５１＝「ひめちゃま」、Ｓ５２＝「かりん」であり、これらの文字列頻度を測定する。Ｈｉｔ（Ｓ５１）＝９３１０００、Ｈｉｔ（Ｓ５２）＝１７３０００００、「ひめちゃまかりん」の文字列頻度がＨｉｔ（Ｓ０）＝８９９０００であり、このときの（１）式を用いて関連度Ｒ（５）を計算する。仮に、他の関連度よりもＲ（５）が一番小さければ、Ｒ（５）は「ひめちゃま／かりん」と分割すると推定され「ひめちゃま」と「かりん」を基本語としてＳ２０５に進む。

なお、Ｒ（ｉ）の式は、単語間の関係を測定するシンプソン係数（単語Ａと単語Ｂの関係を測る場合、Ｓｉｍｐｓｏｎ（Ａ，Ｂ）＝Ａ∩Ｂ／ｍｉｎ（Ａ，Ｂ））という式を改良したものである。特異な文字列を除去した索引付けでは、シンプソン係数をそのまま用いてもうまく計算できない場合がある。このため、外部の文字列頻度データ４０２を利用するだけで語分割をおこなうことができる式Ｒ（ｉ）を用いている。

Ｓ２０５では、停止条件判定部１０５において、Ｓ２０４から受け取った分割文字列が停止条件を満たすかどうかを判定する。停止条件は、例えば、分割後の各文字列が漢字文字２文字以下、カタカナまたはひらがな文字４字以下である場合や、あるいは、文字数の代わりにモーラ数としてもよい。
ここで、入力文字列「たべるのトびら」から、Ｓ２０４において「たべるの」と「トびら」という分割を得た場合には、「たべるの」はひらがな４文字以下であり、これをそのまま出力としてＳ２０６に進む。また、「トびら」もカタカナとひらがなの４字以下であるため、これをそのまま出力としてＳ２０６に進む。一方、同様の停止条件であるときに、入力文字列「ひめちゃまかりん」からＳ２０４において「ひめちゃま」と「かりん」という分割を得た場合には、「かりん」はひらがな４字以下であるため、このまま出力とする。しかし、「ひめちゃま」はひらがな４字より多いため停止条件を満たさないので、「ひめちゃま」をＳ２０１へ戻し、更なる分割位置を求める。こうしてすべての分割文字列が停止条件を満たすまで再帰的に文字列の分割処理を繰り返す。
Ｓ２０６では、Ｓ２０５で停止条件を満たした分割文字列を基本語として出力する。ここでは「たべるの」と「トびら」を出力する。上述したステップにより語句分割部１０７の処理を終了する。

（変形例）
次に図１で示した語分割装置１００の変形例を図６に示す。
本変形例に係る語分割装置６００は、図１に示した語分割装置１００に加え、さらに形態素解析部６０１を含む。語分割装置６００に含まれる他の構成は上述した第１の実施形態と同様の動作をおこなうのでここでの説明は省略する。
上述した第１の実施形態では、主に番組名や氏名など単語単位で、未知語の開始位置と終了位置が認識できる状態で入力をおこなうことを想定しているが、本変形例では、単語単位だけではなく、文章で未知語の終了位置がわからない状態の入力においても形態素解析をおこなうことにより未知語を単語単位で抽出して基本語への分割をおこなうことができる。
形態素解析部６０１は、入力部１０１から入力文字列を受け取り、形態素解析をおこなった結果、未知語と判定されて１語になったり、名称等の扱いで１語となった文字列を、語句分割部１０７へ送る。形態素解析器の代わりに、助詞「は」「の」などを分割位置として語分割してもよい。例えば、「Ｔ芝Ｓ郎の金曜日のエンタメアツメテ」という入力文字列の場合、形態素解析部６０１によって形態素解析をおこなう。その結果、人名「Ｔ芝Ｓ郎」や造語「エンタメアツメテ」が未知語となった場合に、語句分割部１０７へ「Ｔ芝Ｓ郎」や「エンタメアツメテ」を入力として与え、姓名分割や語分割をおこなう。
また、語句分割部１０７では、人名を入力として与え、姓名分割をおこなってもよい。さらに、語句分割部１０７では、複合語を入力として与え、複合語を構成する基本語への分割をおこなってもよい。

以上に示した第１の実施形態によれば、形態素解析器では分割できないような新語や造語とった未知語であっても、語分割することが可能となる。また、文章を入力した場合にも、形態素解析をかけることにより未知語を抽出して、その未知語に対して語分割をおこなうことができる。さらに、適切な２分割位置を判定する計算で求めるため、全部分文字列から結束度計算をするよりも外部へのアクセスや計算量を少なく抑えて計算することができる。

（第２の実施形態）
本発明に係る第２の実施形態について図７を参照して説明する。本実施形態に係る語分割装置７００は、図１で示した語分割装置１００に加え、さらに略称生成部７０１を含む。語分割装置７００に含まれる他の構成は、上述した第１の実施形態の語分割装置１００と同様の動作をおこなうのでここでの説明は省略する。
第１の実施形態に係る語分割装置１００と異なる点は、基本語への語分割をおこなった後に、略称生成をおこなうことによって略称候補を取得することである。
略称生成部７０１では、語句分割部１０７から受け取った基本語から略称生成規則によって略称候補を生成し、出力部１０６へ送る。あるいは各文字列を単語として機械学習の素性として用いて、略称候補の生成をおこない出力部１０６へ送ってもよい。略称生成規則とは、例えば、入力語を分割した各基本語のうち略称生成に用いる、基本語および文字の位置を指定するものである。例えば、文字位置（例えば、語頭や語末）を組み合わせて構成したり、長音や撥音を除く処理を加えて生成する手法といったものである。一例としては、正式名称が「首都間中央自動車道」(首都間/中央/自動車/道)の場合、「第１、第２、第４番目の基本語の語末の１文字を選択」という略称生成規則であれば、「首都間」の「間」、「中央」の「央」、「道」の「道」が各基本語より選択され、「間央道」と略される。また、正式名称が「第三中学校」(第三/中学校)の場合、「第１基本語の語末の１文字および第２基本語の語頭の１文字を選択」という略称生成規則であれば、「第三」の「三」、「中学校」の「中」が選択され、「三中」と略される。さらに「長音を除く」という略称生成規則であれば、基本語「スーパー」は「スパ」と略される。また、機械学習には、例えば、ＣＲＦ（Conditional Random Fields)といった手法があり、各文字に対し略称に用いられる文字かどうかを判定する。

略称生成部７０１での処理の例を図８のフローチャートを参照して説明する。
はじめに、入力部１０１への入力文字列が「たべるのトびら」であった場合、語句分割部１０７での語分割処理の結果、「たべるの」「トびら」という基本語がそれぞれ得られたとする。
Ｓ８０１では、略称生成部７０１へ「たべるの」「トびら」という２語（入力基本語８０４）の入力をおこなう。
次にＳ８０２では、略称生成規則適用の際、語頭２文字ずつを得る略称生成を用いて略称生成する場合は、「たべるの」と「トびら」を基本語として「たべトび」という略称が生成される。略称生成規則が複数あった場合には、この他にも複数の略称候補が生成される（略称候補８０５）。この略称候補８０５を生成したあとはＳ８０３に進む。
Ｓ８０３では、Ｓ８０２で生成された略称候補８０５を出力する。以上のステップにより略称生成部７０１での処理を終了する。

また、語句分割部１０７で何回目の語分割であるかを保持し、分割位置だけでなく分割回数も合わせて略称生成部７０１へ入力してもよい。分割位置および分割回数は停止条件判定部１０５で記憶することを想定しているが、特に限定されずどこで記憶していてもよい。分割位置だけでなく、分割回数も略称生成部７０１への入力とすることで、例えば略称生成部７０１で分割回数が少ない分割位置からなる略称候補８０５を出力する。あるいは、分割回数が少ない順に候補を順位付けして出力しても良い。これは少ない分割回数の方が、略称候補８０５の基として選ばれやすい基本語から構成されるからである。例えば、入力文字列「ひめちゃまかりん」の場合、１回目の分割で「ひめちゃま」「かりん」とそれぞれ基本語に分割されたあとに、文字列「ひめちゃま」について再度分割をおこない、「ひめ」「ちゃま」に分割されたとする。このとき、分割位置だけの情報では、「ひめ／ちゃま／かりん」という３語の基本語から構成されることになる。
ここで分割回数も追加情報として与えれば、「ひめ／２ちゃま／１かりん」と分割されることになる。ただし、「／ｉ」は、ｉ番目の分割位置であることを表す。略称生成規則が、「任意に２語から語頭２モーラをつなぎ合わせて作成する」だった場合、「ひめちゃま」「ひめかり」「ちゃまかり」という３候補が生成される。しかし、分割回数を追加情報として与え、このときの略称生成規則が例えば、「分割回数の少ない位置で分割された２語の語頭２モーラから作成される」であった場合、「ひめかり」のみ略称候補８０５として選択することができる。

上述した第２の実施形態によれば、基本語から略称生成規則によって自動的に略称を生成することが可能となる。また、さらに再帰的に分割を繰り返すため、何回目の分割であったかという情報からより分割されやすい分割位置を測ることができる。

（第３の実施形態）
本発明に係る第３の実施形態について図９を参照して説明する。本実施形態に係る語分割装置９００は、図７で示した第２の実施形態に係る語分割装置７００に加え、さらに略称候補選定部９０１を含む。文字列頻度測定部１０３は、略称候補選定部９０１と文字列頻度データをやり取りする点で第１の実施形態および第２の実施形態と異なるが、その他は同様の動作をおこなう。
語分割装置９００に含まれる他の構成は、上述した第２の実施形態に係る語分割装置７００とほぼ同様の動作をおこなうのでここでの説明は省略する。
第２の実施形態と異なる点は、略称生成部７０１により生成された略称候補８０５をそのまま出力するのではなく、複数の略称候補８０５に対し、略称候補８０５の頻度あるいは、略称候補８０５と入力文字列との共起頻度が閾値よりも小さい略称候補８０５を削除したり、共起頻度を参照して順位付けをおこなって、選定した略称のみを出力部１０６へ送る点である。閾値は、文字列の出現数により、統計的に決定される値である。換言すれば、略称候補８０５の文字列の頻度が閾値以上であれば、その略称候補８０５は入力文字列の略称としての正解率、つまり信頼度が高いといえる。逆に、略称候補８０５の文字列の頻度が閾値よりも小さければ、その略称候補８０５の略称としての信頼度は低くなる。共起頻度とは、入力文字列と略称候補８０５がどれほど関連付いて出現しているかを示す度数（出現回数）である。例えばＷｅｂ上で入力文字列と略称候補との関連を検索し、その度数を測定することで得るといったことが考えられる。

略称候補選定部９０１は、略称生成部７０１の処理により生成した略称候補８０５を受け取り、または文字列頻度測定部１０３から測定した共起頻度を取得して参照し、複数の略称候補の順位付けをおこなって高い順位の略称候補を出力部１０６へ送ったり、略称候補の中から閾値により選定した略称候補のみ出力部１０６へ送る。

本実施形態における略称生成部７０１と略称候補選定部９０１とでの基本語から略称候補の選定処理の一例を図１０のフローチャートを参照して説明する。入力部１０１への入力文字列が「たべるのトびら」であった場合、語句分割部１０７での語分割処理の結果、「たべるの」「トびら」という分割済みの語が得られたとする。
はじめにＳ１００１では、略称生成部７０１へ「たべるの」「トびら」という２語（入力基本語８０４）が入力される。
次にＳ１００２では、略称生成部７０１において、語頭２文字ずつを得る略称生成規則が適用された場合、「たべるの」と「トびら」を基本語として「たべトび」という略称が生成される。このとき、略称生成規則が複数ある場合には、「たべトび」以外にも幾つかの略称候補８０５が生成される。

続いてＳ１００３では、略称候補選定部９０１において、略称生成部７０１から受け取った複数個の略称候補８０５の選定および順位付けをおこなう。例えば、入力文字列「たべるのトびら」と各略称候補８０５の２語を検索語とし、文字列頻度測定部１０３を通してＷｅｂ検索用ＡＰＩで検索結果数（共起頻度）を得る。略称候補８０５として、「たべトび」「たトび」「たべト」の３語があった場合、検索語Ａ「″たべるのトびら″ ″たべトび″」、検索語Ｂ「″たべるのトびら″ ″たトび″」、検索語Ｃ「″たべるのトびら″ ″たべト″」の３つをそれぞれ検索語として、Ｗｅｂ上での頻度を得る。その結果、Ａ：８６７００、Ｂ：０、Ｃ：８５２００という頻度（略称候補頻度１００５）であった場合、頻度が一番高かった「たべトび」を選定し、Ｓ１００４に進む。なお、閾値を用いて略称候補８０５の選定をおこなう場合は、例えば閾値よりも小さい頻度である略称候補８０５は選定されずに出力をおこなわないとしたり、逆に、閾値以上の頻度である略称候補８０５は全て選定して出力をおこなう等の処理をしてもよい。
また、閾値と順位付けを同時におこない選定処理をしてもよい。例えば、略称候補８０５を３つ選定して出力する場合を想定する。順位付けにより選定された上位３つの略称候補８０５が、上位２つの略称候補８０５の頻度は閾値以上であり、３番目の略称候補８０５の頻度は閾値以下であった場合は、閾値以上の２つの略称候補８０５は略称としての信頼度が高く、閾値よりも小さい１つの略称候補８０５は、選定はされるものの、略称としての信頼度は低いということができる。

また、検索エンジンのインデキシングの関係で件数が変化する事情を考慮してもよい。例えば、先ほどの検索語Ａから検索語Ｃで検索し、Ｗｅｂ上での頻度を得た結果、それぞれ、Ａ：８５２００、Ｂ：０、Ｃ：８６７００という頻度（略称候補頻度１００５）であった場合、「たべト」が頻度が一番高い候補となってしまう。しかし、「たべトび」（頻度が０でない単語）と、頻度が一番高かった「たべト」の２つの文字列は、包含関係（「たべト」＋「び」⇒「たべトび」）にあり、実際は「たべトび」が正しい略称であるのに検索エンジンでは「たべト」と「たべトび」の両方が単語として登録されている可能性がある。この場合、「たべトび」を含んでいるのに「たべト」でしかインデキシングされていない文書は件数として現れない。

このような場合を考慮するため、検索結果上位の要約（スニペット）中を調べ、略称候補８０５の文字列の包含関係（ある文字列の先頭からの部分文字列または後方からの部分文字列が、別の文字列と一致しているかどうか）を確認する。任意の２つの略称候補８０５のうち、ある候補（文字長が長い方）が、他方（文字長が短い方）を包含するような文字列は、文字長が短い方の略称候補８０５での検索結果の要約（スニペット）中に現れる短い方の略称候補８０５が、長い方の略称候補８０５の一部になっていないかを調べる。もし、包含関係になっている場合には、文字列長が短い方のＷｅｂ上での頻度が、長い方の頻度に因るものと判定し、文字列長が長い略称候補８０５を選定する。「たべト」と「たべトび」の場合、「たべト」は「たべトび」の先頭からの部分文字列になっているため、検索語Ｂで検索した結果を調べる。その検索結果中で現れる「たべト」が、「…たべトび…」というフレーズ中に頻出する場合には、「たべトび」を略称候補８０５として選定して、Ｓ１００４に進む。
Ｓ１００４では、出力部１０６において、略称候補選定部９０１から受け取った略称候補８０５の出力をおこなう。以上のステップにより基本語から略称候補８０５の選定処理を終了する。

また、語句分割部１０７で保持した、入力文字列の２分割の際に何回目の語分割であるかという情報を利用して、例えば、略称候補選定部９０１で、分割回数が少ない分割位置からなる略称候補８０５を優先的に出力してもよい。上述のように、入力文字列「ひめちゃまかりん」を語句分割部１０７で分割した結果、分割位置と分割回数が「ひめ／２ちゃま／１かりん」となったとする。略称生成規則が、「基本語中の任意の２語の語頭２モーラをつなぎ合わせて作成する」というものであった場合、「ひめちゃま」「ひめかり」「ちゃまかり」という３つの略称候補８０５が生成される。そして、この略称候補８０５それぞれに分割回数を追加情報として与える。このとき、図１０のＳ１００３で、分割回数のより少ない回数で分割された２語から作成されたものを優先する場合、「／０ひめ／１かり」「／０ひめ／２ちゃま」「／２ちゃま／１かり」という区切り記号ｉの総和が小さい順に並べ、「ひめかり」（総和が１）、「ひめちゃま」（総和が２）、「ちゃまかり」（総和が３）という順位付けをおこなう。

上述した第３の実施形態によれば、分割された基本語から略称生成が自動的に可能である。さらに、連接確率データを用意する必要がないため、頻度測定をおこなう際に利用する検索エンジン等のデータでも、語分割後の文字列（基本語と原語）を索引付けしていることを前提せずに、語分割前後の関連は未知の状態でも関係付けが可能になる。さらに略称生成規則が複数あり、複数の略称候補が生成された場合に頻度や分割回数による選定等をおこなうことで自動的に複数の略称候補から所望の略称を選定することが可能となる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１００、６００、７００、９００・・・語分割装置、１０１・・・入力部、１０２・・・分割部、１０３・・・文字列頻度測定部、１０４・・・分割位置判定部、１０５・・・停止条件判定部、１０６・・・出力部、１０７・・・語句分割部、１０８・・・データベース、４０１・・・文字列データ、４０２・・・文字列頻度データ、６０１・・・形態素解析部、７０１・・・略称生成部、８０４・・・入力基本語、８０５・・・略称候補、９０１・・・略称候補選定部、１００５・・・略称候補頻度。

Claims

文字列の入力を受け付け入力文字列を得る入力手段と、
前記入力文字列の全ての文字間で該入力文字列を２分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数より１少ない数だけ取得する分割手段と、
前記入力文字列が出現した度数を示す数である第１頻度と、前記前半文字列が出現した度数を示す数である第２頻度と、前記後半文字列が出現した度数を示す数である第３頻度を取得する取得手段と、
前記第１頻度の値と、前記第２頻度の値および前記第３頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定する第１判定手段と、
前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも１つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定する第２判定手段と、を具備することを特徴とする語分割装置。
前記取得手段は、外部にある第１データベース内において前記入力文字列または前記分割文字列を検索した結果である前記第１頻度、前記第２頻度、および前記第３頻度を取得することを特徴とする請求項１に記載の語分割装置。
前記取得手段は、複数の文字列を記憶し文字列ごとに、文字列と該文字列の頻度とを関連付けて格納している第２データベースから前記第１頻度、前記第２頻度、および前記第３頻度を取得することを特徴とする請求項１に記載の語分割装置。
前記取得手段は、既存の文書データを取得して、該文書データ中に前記入力文字列、前記前半文字列、および前記後半文字列が出現した度数をそれぞれ測定することにより、前記１頻度、前記第２頻度、および前記第３頻度を取得することを特徴とする請求項１に記載の語分割装置。
前記第２判定手段は、前記最適前半文字列および前記最適後半文字列の少なくとも１つが前記停止条件を満たさない場合は、該最適前半文字列および該最適後半文字列のうち該停止条件を満たさない文字列を新たな入力文字列として前記分割手段へ送り、該分割手段は該新たな入力文字列に基づき新たな分割文字列を得ることを特徴とする請求項１から請求項４のいずれか１項に記載の語分割装置。
前記第２判定手段は、前記最適前半文字列および前記最適後半文字列の少なくとも１つが前記停止条件を満たさない場合は、該最適前半文字列および該最適後半文字列のうち該停止条件を満たさない文字列を新たな入力文字列として前記分割手段へ送り、該分割手段は該新たな入力文字列に基づき新たな分割文字列を得、
複数の前記基本語内の該基本語ごとに先頭文字からの位置であって、指定された文字位置にあるＮ個（Ｎは０以上の整数）の文字列を略称候補文字列として選択し、複数の該略称候補文字列を指定された組み合わせにより少なくとも２文字以上の第１略称を生成する生成手段をさらに具備することを特徴とする請求項１から請求項４のいずれか１項に記載の語分割装置。
複数の前記第１略称から、前記第１データベース中および前記既存の文書データ中の少なくとも１つにおいて、同一文書内で前記入力文字列および前記第１略称が共起した頻度を表わす共起頻度に対する、該共起頻度の高低を示す閾値と、該共起頻度が高い前記第１略称ほど上位に位置させる順位との少なくとも１つにより選定をおこない、該閾値により選定する場合は該共起頻度が該閾値以上の第１略称を選定し、該順位により選定する場合は該順位が上位であるほど優先的に第１略称を選定する選定手段をさらに具備することを特徴とする請求項６に記載の語分割装置。
前記第１略称から選択した第２略称の共起頻度が、該第２略称を全て包含する略称である第３略称の共起頻度よりも大きい場合は、前記第３略称を優先して出力することを特徴とする請求項７に記載の語分割装置。
前記生成手段は、前記入力文字列の分割回数が少ない前記基本語の順に前記略称候補文字列を組み合わせて前記略称を生成することを特徴とする請求項６から請求項８のいずれか１項に記載の語分割装置。
前記文字列が文章である場合に、該文字列を形態素解析し、該文字列に含まれていて１語である文字列を１語文字列として取得する解析手段をさらに具備し、
前記分割手段は、前記１語文字列を入力文字列として取得し、該入力文字列を分割することを特徴とする請求項１から請求項９のいずれか１項に記載の語分割装置。
文字列の入力を受け付け入力文字列を得、
前記入力文字列の全ての文字間で該入力文字列を２分割し、分割後の前半部分の文字列である前半文字列と分割後の後半部分の文字列である後半文字列とからなる分割文字列を、前記入力文字列の文字数よりも１少ない数だけ得、
前記入力文字列が出現した度数を示す数である第１頻度と、前記前半文字列が出現した度数を示す数である第２頻度と、前記後半文字列が出現した度数を示す数である第３頻度を取得し、
前記第１頻度の値と、前記第２頻度の値および前記第３頻度の値のうちの小さい方の値との比により、複数の前記分割文字列のうちの該比が最小となる分割文字列を最適分割文字列として判定し、
前記最適分割文字列に含まれる前半文字列である最適前半文字列および該最適分割文字列に含まれる後半文字列である最適後半文字列の少なくとも１つが、さらに分割をおこなわない条件を示す停止条件を満たす場合は、前記最適前半文字列および前記最適後半文字列のうち該停止条件を満たす文字列を基本語として判定することを特徴とする語分割方法。