JP5788015B2

JP5788015B2 - 複数の粒度でのテキスト分割

Info

Publication number: JP5788015B2
Application number: JP2013539361A
Authority: JP
Inventors: スン・ジエン; ホウ・レイ; ミーンターン・ジーン; チュウ・ミン; リーンリヤオ・シャオ; ジーンシュイ・ビーン; ゴーンプオン・レン; ヤーン・ヤーン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2010-11-22
Filing date: 2011-11-18
Publication date: 2015-09-30
Anticipated expiration: 2031-11-18
Also published as: EP2643770A2; EP2643770A4; US8892420B2; TW201222291A; TWI512507B; JP2014500547A; HK1167028A1; WO2012095696A3; CN102479191B; WO2012095696A2; US9223779B2; CN102479191A; US20120130705A1; US20160132492A1; US20150100307A1

Description

他の出願の相互参照
本願は、すべての目的のために参照により本明細書に組み込まれる、発明の名称を「ＡＭＥＴＨＯＤＯＦＰＲＯＶＩＤＩＮＧＭＵＬＴＩ−ＧＲＡＮＵＬＡＲＩＴＹＳＥＧＭＥＮＴＡＴＩＯＮＲＥＳＵＬＴＳＡＮＤＡＤＥＶＩＣＥＦＯＲＳＡＭＥ（複数粒度の分割結果を提供するための方法および装置）」とする、２０１０年１１月２２日出願の中国特許出願第２０１０１０５５５７６３．４号に基づく優先権を主張する。

本願は、単語情報処理技術の分野に関し、特に、単語分割辞書の構築に関する。

言語は、単語区切り記号を有するか否かに従って、２つのタイプに分類できる。一方のタイプは、英語、ドイツ語、および、多くの他のヨーロッパ言語などであり、単語区切り記号を有する。一般に、単語間のスペースが、単語区切り記号として機能する。もう一方のタイプは、文中の単語に印をつけるための単語区切り記号を持たない。中国語、日本語、および、韓国語など、多くの東アジアの言語は、単語区切り記号のない言語である。

検索エンジン、機械翻訳、および、音声合成アプリケーションは、単語区切り記号のない言語のテキストを分割し、文に由来するセグメント（文節）を含むセグメント列を形成することをしばしば必要とする言語テキスト処理の問題を伴う。分割処理は、しばしば、単語分割辞書（語彙）を含んでおり、単語分割辞書は、かなりの数の予め格納されたエントリを含むデータベース／辞書を備える。単語分割の際、所与のテキストは、特定の戦略に従って単語分割辞書のエントリとマッチングされる（例えば、左から右への順方向最大マッチング法（ｆｏｒｗａｒｄｍａｘｉｍｕｍｍａｔｃｈｉｎｇｍｅｔｈｏｄ）、右から左への逆方向最大マッチング法（ｂａｃｋｗａｒｄｍａｘｉｍｕｍｍａｔｃｈｉｎｇｍｅｔｈｏｄ）、最小分割法など）。例えば、最大マッチング法では、入力テキストに一致しうる最長のエントリが辞書内で見つかると、それが単語として特定され、特定された単語がセグメントと見なされる。これを繰り返すと、所与のテキストを、セグメントからなるセグメント列に分割することができる。セグメントは、うまく一致した単語および文字、もしくは、動的に特定された単語を含みうる。

所与のテキストについて、結果として得られた単語セグメント列内のセグメントが長いほど（すなわち、セグメント列に含まれるセグメントの数が少ないほど）、単語分割粒度が大きくなる。逆に、結果として得られた単語セグメント列内のセグメントの数が多いほど、単語分割粒度が小さくなる。なお、以下では中文をＣ〜Ｃの符号で記し、中文と符号との対応関係は末尾の表４に示す。例えば、所与のテキスト「Ｃ１人民共和国成立了」（中華人民共和国が建国された）について、細粒度の単語分割結果は、「Ｃ１−人民−共和国−成立−了」（中華−人民−共和国−建国−された）であり、粗粒度の単語分割結果は、「Ｃ１人民共和国−成立−了」（中華人民共和国−建国−された）である。

異なるアプリケーションでは、分割結果の粒度に関する要件が異なる。例えば、機械翻訳においては、粒度はいくぶん大きい方が好ましく、例えば、「Ｃ２管理」（企業管理）は、単一のセグメントであることが好ましい。しかし、検索エンジンの索引システムでは、「Ｃ２管理」は、一般に２つのセグメントに分割される（「Ｃ２」（企業）および「管理」（管理））。

分割結果に関する粒度の要件は、同じタイプのアプリケーションでも異なりうる。以下では、説明の目的で、検索エンジンアプリケーションの例を用いる。検索エンジンアプリケーションにおいて、検索エンジンは、異なる分野に対して異なる単語分割粒度を必要とする。例えば、電子商取引の分野で（例えば、商品検索を行うために）用いられる検索エンジンでは、販売者および購入者の両者が、検索において高い再現率を求める。これを達成するために、検索システムは、より小さい索引の粒度を有する必要があるため、より細粒度の分割結果を必要とする。一般的なウェブページ検索に用いられる検索エンジンでは、莫大な数のインターネットウェブページがあることから、検索の精度が、ユーザにとって特に重要になる。これを達成するために、検索システムは、より粗粒度の分割結果を必要とする。このように、検索の再現率および検索の精度が、検索の質を評価するための重要な尺度になる。検索の再現率は、システムが関連情報をどれだけうまく見つけるかを測るものであり、見いだされた関連文書の、関連文書の総数に対する比である。検索の精度は、システムが関連情報を見つける際にどれだけうまく実行するかを測るものであり、見いだされた関連文書の、見出された全文書に対する比である。単語分割粒度は、検索再現率および検索精度に関係する。一般的に言うと、単語分割粒度が小さいほど、検索再現率が高くなり、単語分割粒度が大きいほど、検索精度が高くなる。

分割結果に関する粒度の要件は、同じタイプのアプリケーションの同じ分野内でも様々な使用段階に応じて異なっている。再び、説明のためにウェブ検索エンジンアプリケーションを一例として用いる。検索再現率および検索精度の両方に関するユーザの要求を満たすために、粒度要件は、検索の索引段階および順序付け段階の間で異なる。索引段階では、十分な数のウェブページが検索されうるように、より細粒度の分割結果が必要とされる。順序付け段階では、検索精度への要求を満たし、関連のないウェブページをユーザに提供することを避けるために、より粗粒度の分割結果が必要とされる。

上述の問題を解決するために、従来技術は、主に、２つのスキームを用いて、複数の粒度の分割結果を提供する。

図１Ａは、複数の粒度で分割結果を提供するための典型的なスキームを示している。まず、最小粒度の単語分割が実行される。次いで、下から上への動的な結合が行われる。具体的には、より細粒度の単語分割辞書Ａを用いて、所与のテキストに単語分割を実行する。異なるセグメント列が、単語分割処理で生成されうる。例えば、テキストＳ₁Ｓ₂Ｓ₃Ｓ₄Ｓ₅Ｓ₆Ｓ₇（ここで、Ｓ_nは文字を表す）は、Ｓ₁Ｓ₂−Ｓ₃Ｓ₄−Ｓ₅−Ｓ₆Ｓ₇またはＳ₁Ｓ₂Ｓ₃−Ｓ₄Ｓ₅−Ｓ₆Ｓ₇に分割されうる。次いで、セグメント列の１つ（ここでは、Ｓ₁Ｓ₂−Ｓ₃Ｓ₄−Ｓ₅−Ｓ₆Ｓ₇とする）が、所定の選択アルゴリズムに従って、最適セグメント列として選択されうる。所定のアルゴリズムは、統計モデルに基づいたアルゴリズムであってよい。

より粗粒度の分割結果を提供するために、列Ｓ₁Ｓ₂−Ｓ₃Ｓ₄−Ｓ₅−Ｓ₆Ｓ₇に結合が実行される。具体的な結合処理は、列Ｓ₁Ｓ₂−Ｓ₃Ｓ₄−Ｓ₅−Ｓ₆Ｓ₇内の２つのセグメントの組み合わせが、より長いエントリを含む単語分割辞書Ｂ内のエントリと一致するか否かを評価することを必要とする。これら２つのセグメントが結合されると、より粗粒度の結合済みセグメント列が生じる。ここで、Ｓ₁Ｓ₂およびＳ₃Ｓ₄を結合することができ、Ｓ₅およびＳ₆Ｓ₇を結合することができると仮定すると、より粗粒度の結合済みセグメント列は、Ｓ₁Ｓ₂Ｓ₃Ｓ₄−Ｓ₅Ｓ₆Ｓ₇となる。

この方法を用いる場合、いくつかの意味項目が、単語分割中に失われる。例えば、意味要素Ｓ₁Ｓ₂Ｓ₃およびＳ₄Ｓ₅が失われる。説明のために、ここで実際の例を用いる。テキストを「本Ｃ３管用Ｃ５Ｃ６Ｃ７」（このステンレス鋼管は、１級鋼を用いて鋳造されている）とする。ここで、「Ｃ３管」（ステンレス鋼管）は、実際は、２つの意味項目を含む。すなわち、「Ｃ３」（ステンレス鋼）および「「ム「オ管」（鋼管）である。最小粒度の「Ｃ３管」（ステンレス鋼管）を「Ｃ３−管」（ステンレス鋼−管）（ここで「−」は２つの隣接するセグメントを分離する記号）に分割した後に、再びこれらを結合して「Ｃ３管」（ステンレス鋼管）を形成した場合、意味項目「Ｃ６管」（鋼管）が失われる。その結果として、「「ム「オ管」（鋼管）という用語は、このテキストの検索中に見つからなくなる。最小粒度の「Ｃ３管」（ステンレス鋼管）を「Ｃ４管」（ステン−レス−鋼管）に分割した後に、再びこれらを結合して「Ｃ３管」（ステンレス鋼管）を形成した場合、意味項目「Ｃ３」（ステンレス鋼）が失われる。したがって、「Ｃ３」（ステンレス鋼）は、このテキストの検索中に見つからなくなる。

さらに、結合の精度を保証するのは困難である。所与のテキストの最小粒度単語分割から得られたセグメント列が、「本−Ｃ３−管−用−Ｃ５−Ｃ６−Ｃ７」（この−ステンレス鋼−管−１級−鋼−鋳造）であるとすると、結合の際に曖昧性が生じる。結合された結果は、「Ｃ３管」（ステンレス鋼管）または「管用」（有用）でありうる。所与のテキストの最小粒度単語分割から得られたセグメント列が、「本−Ｃ３−管用−Ｃ５−Ｃ６−Ｃ７」（この−ステンレス鋼−有用−１級−鋼−鋳造）であった場合、再び結合しても、意味項目「Ｃ３管」（ステンレス鋼管）を得ることはできない。

図１Ｂは、複数の粒度で分割結果を提供するための別の典型的なスキームを示している。まず、最大粒度の単語分割が実行される。次いで、上から下への分割が実行される。具体的には、より粗粒度の単語分割辞書Ｃが用いられ、モデルおよびアルゴリズムが、所与のテキストＳ₁Ｓ₂Ｓ₃Ｓ₄Ｓ₅Ｓ₆Ｓ₇の動的な単語分割を実行（最適なセグメント列を選択）してセグメント列Ｓ₁Ｓ₂Ｓ₃Ｓ₄−Ｓ₅Ｓ₆Ｓ₇を得るために用いられる。

より細粒度の単語分割結果を得るために、Ｓ₁Ｓ₂Ｓ₃Ｓ₄−Ｓ₅Ｓ₆Ｓ₇内の各意味要素が、再び分割される。具体的な分割処理は、列Ｓ₁Ｓ₂Ｓ₃Ｓ₄−Ｓ₅Ｓ₆Ｓ₇内の各セグメントを評価して、単語分割辞書Ｃ内の２以上のその他のより細粒度のエントリを含むか否かを判定する。含む場合、このセグメントは、２以上のその他のエントリに分割される。Ｓ₁Ｓ₂Ｓ₃Ｓ₄がＳ₁Ｓ₂およびＳ₃Ｓ₄に分割され、Ｓ₅Ｓ₆Ｓ₇がＳ₅およびＳ₆Ｓ₇に分割されうると仮定すると、分割後に得られる細粒度の単語分割結果は、Ｓ₁Ｓ₂−Ｓ₃Ｓ₄−Ｓ₅−Ｓ₆Ｓ₇となる。

この方法を用いる場合、最大粒度の単語分割中に生じる曖昧性の問題を解決するために、より多くの粗粒度のエントリが辞書に記録される必要がある。例えば、「Ｃ２管理科学Ｃ８」（企業管理科学技術）というテキストがあるとすると、より粗粒度のエントリ「Ｃ２管理」（企業管理）および「管理科学」（管理科学）が辞書に記録されている場合、「Ｃ２管理科学」（企業管理科学）は、「Ｃ２管理−科学」（企業管理−科学）または「Ｃ２−管理科学」（企業−管理科学）に分割されうる。この曖昧性の解決方法は、さらに長いエントリ「Ｃ２管理科学」（企業管理科学）も辞書に記録することである。しかしながら、「Ｃ２管理科学」（企業管理科学）は、「科学Ｃ８」（科学技術）に関する分割の曖昧性も生じる。したがって、かかる粗粒度のエントリで構成された集合は、閉集合ではない。辞書を拡大すると、辞書の維持が困難になる。

以上のように、単語分割辞書内のエントリの粒度が大きくなるほど、単語分割中に生成される異なるセグメント列の数が多くなる。すなわち、より多い単語分割経路があるため、曖昧性の問題も多くなる。最大粒度分割の精度を保証することが困難になる。

最大粒度の分割結果がある時、辞書をチェックすることによって、これらのセグメントの細粒度の単語を取得できる。しかしながら、辞書が拡大すると、エントリの質を維持しつつ、これらのエントリと、これらのエントリの細粒度の単語とを手作業で維持するのは、高コストになりうる。

要約すると、複数の粒度で分割結果を提供するための従来技術には、通例、再現率が低いことにより意味項目が失われるという問題、または、単語分割辞書が非常に膨大であり単語分割処理の精度が低いという問題がある。

以下の詳細な説明と添付の図面において、本発明の様々な実施形態を開示する。

複数の粒度で分割結果を提供するための典型的なスキームを示す図。

複数の粒度で分割結果を提供するための別の典型的なスキームを示す図。

テキストを分割し、複数の粒度の分割結果を提供するためのシステムの一実施形態を示す図。

単語分割辞書、特に、最小意味単位の辞書を構築するための処理の一実施形態を示すフローチャート。

最小意味単位の辞書および複合意味単位の辞書に基づいて、複数の粒度の分割結果を取得する処理の一実施形態を示すフローチャート。

単語分割ツリー構造の一例を示す図。

単語分割辞書を構築するためのシステムの一実施形態を示すブロック図。

複数の粒度の分割結果を提供するよう構成されたシステムの一実施形態を示すブロック図。

単語分割処理モジュールの一実施形態を示すブロック図。

決定モジュールの一実施形態を示すブロック図。

本発明は、処理、装置、システム、物質の組成、コンピュータ読み取り可能な格納媒体上に具現化されたコンピュータプログラム製品、および／または、プロセッサ（プロセッサに接続されたメモリに格納および／またはそのメモリによって提供される命令を実行するよう構成されたプロセッサ）を含め、様々な形態で実装されうる。本明細書では、これらの実装または本発明が取りうる任意の他の形態を、技術と呼ぶ。一般に、開示された処理の工程の順序は、本発明の範囲内で変更されてもよい。特に言及しない限り、タスクを実行するよう構成されるものとして記載されたプロセッサまたはメモリなどの構成要素は、ある時間にタスクを実行するよう一時的に構成された一般的な構成要素として、または、タスクを実行するよう製造された特定の構成要素として実装されてよい。本明細書では、「プロセッサ」という用語は、１または複数のデバイス、回路、および／または、コンピュータプログラム命令などのデータを処理するよう構成された処理コアを指すものとする。

以下では、本発明の原理を示す図面を参照しつつ、本発明の１または複数の実施形態の詳細な説明を行う。本発明は、かかる実施形態に関連して説明されているが、どの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定されるものであり、多くの代替物、変形物、および、等価物を含む。以下の説明では、本発明の完全な理解を提供するために、多くの具体的な詳細事項が記載されている。これらの詳細事項は、例示を目的としたものであり、本発明は、これらの具体的な詳細事項の一部または全てがなくとも特許請求の範囲に従って実施可能である。簡単のために、本発明に関連する技術分野で周知の技術要素については、本発明が必要以上にわかりにくくならないように、詳細には説明していない。

複数の粒度のセグメントにテキストを分割することが開示されている。いくつかの実施形態において、単語分割辞書（例えば、最小意味単位の辞書）が構築される。最小意味単位の辞書内のエントリは、合理的な長さを有し、意味的な完全性も有する。さらに、それらのエントリに対応する検索要素が辞書に格納される。所与のエントリが単語分割を受ける時、中間粒度の分割結果を得るために、構築された最小意味単位の辞書に基づいて単語分割を受ける。中間粒度の分割結果は、より粗粒度のエントリを含む単語分割辞書を用いて結合され、それによって、より粗粒度の分割結果が得られる。最小意味単位の辞書に格納されたエントリに対応する検索要素を用いて、より細粒度の分割結果が、中間粒度の分割結果に基づいて取得される。いくつかの実施形態において、テキストは、中国語など、単語区切り記号のない言語である。

図２は、テキストを分割し、複数の粒度の分割結果を提供するためのシステムの一実施形態を示す。明らかに、フォームデザインのためのコンテキスト依存のスクリプト編集を実行するために、他のコンピュータシステムアーキテクチャおよび構成が用いられてもよい。以下に述べるような様々なサブシステムを備えるコンピュータシステム１００は、少なくとも１つのマイクロプロセッササブシステム（プロセッサまたは中央処理装置（ＣＰＵ）とも呼ばれる）１０２を備える。例えば、プロセッサ１０２は、シングルチッププロセッサまたはマルチプロセッサによって実装できる。いくつかの実施形態において、プロセッサ１０２は、コンピュータシステム１００の動作を制御する汎用デジタルプロセッサである。メモリ１１０から読み出された命令を用いて、プロセッサ１０２は、入力データの受信および操作、ならびに、出力デバイス（例えば、ディスプレイ１１８）上でのデータの出力および表示を制御する。いくつかの実施形態において、プロセッサ１０２は、テキストを分割し、複数の粒度の分割結果を提供することを含む、および／または、そのために用いられる。

プロセッサ１０２は、メモリ１１０と双方向的に接続されており、メモリ１１０は、第１のプライマリストレージ（通例は、ランダムアクセスメモリ（ＲＡＭ））および第２のプライマリストレージ領域（通例は、読み出し専用メモリ（ＲＯＭ））を含みうる。当業者に周知のように、プライマリストレージは、一般的な記憶領域として、および、スクラッチパッドメモリとして利用可能であり、また、入力データおよび処理済みデータを格納するために利用可能である。プライマリストレージは、さらに、プロセッサ１０２上で実行される処理のための他のデータおよび命令に加えて、データオブジェクトおよびテキストオブジェクトの形態で、プログラミング命令およびデータを格納できる。また、当業者に周知のように、プライマリストレージは、通例、機能（例えば、プログラムされた命令）を実行するためにプロセッサ１０２によって用いられる基本的な動作命令、プログラムコード、データ、および、オブジェクトを備える。例えば、メモリ１１０は、例えば、データアクセスが双方向である必要があるか、単方向である必要があるかに応じて、後述する任意の適切なコンピュータ読み取り可能な記憶媒体を含みうる。例えば、プロセッサ１０２は、頻繁に必要になるデータをキャッシュメモリ（図示せず）に直接的かつ非常に迅速に格納し取り出すことができる。

着脱可能なマスストレージデバイス１１２が、コンピュータシステム１００にさらなるデータ記憶容量を提供しており、プロセッサ１０２に対して双方向（読み出し／書き込み）または単方向（読み出しのみ）に接続されている。例えば、ストレージ１１２は、磁気テープ、フラッシュメモリ、ＰＣカード、携帯型マスストレージデバイス、ホログラフィックストレージデバイス、および、その他のストレージデバイスなどのコンピュータ読み取り可能な媒体も含みうる。固定マスストレージ１２０も、例えば、さらなるデータ記憶容量を提供しうる。マスストレージ１２０の最も一般的な例は、ハードディスクドライブである。マスストレージ１１２および１２０は、一般に、プロセッサ１０２によって通例はあまり利用されないさらなるプログラミング命令、データなどを格納する。当然のことながら、マスストレージ１１２および１２０に保持された情報は、必要であれば、仮想メモリとしてのメモリ１１０（例えば、ＲＡＭ）の一部に標準的な方式で組み込まれてよい。

プロセッサ１０２がストレージサブシステムにアクセスできるようにすることに加えて、バス１１４は、その他のサブシステムおよびデバイスへのアクセスを可能にするために用いられてもよい。図に示すように、これらは、ディスプレイモニタ１１８、ネットワークインターフェース１１６、キーボード１０４、および、ポインティングデバイス１０６、ならびに、必要に応じて、補助入力／出力デバイスインターフェース、サウンドカード、スピーカ、および、その他のサブシステムを含みうる。例えば、ポインティングデバイス１０６は、マウス、スタイラス、トラックボール、または、タブレットであってよく、グラフィカルユーザインターフェースと相互作用するのに有用である。

ネットワークインターフェース１１６は、図に示すように、ネットワーク接続を用いて、別のコンピュータ、コンピュータネットワーク、または、遠隔通信ネットワークにプロセッサ１０２を接続することを可能にする。例えば、ネットワークインターフェース１１６を通して、プロセッサ１０２は、方法／処理ステップを実行する過程で、別のネットワークから情報（例えば、データオブジェクトまたはプログラム命令）を受信したり、別のネットワークに情報を出力したりすることができる。情報は、プロセッサ上で実行される一連の命令として表されることが多く、別のネットワークから受信されたり、別のネットワークへ出力されたりしうる。インターフェースカード（または同様のデバイス）と、プロセッサ１０２によって実装（例えば、実行／実施）される適切なソフトウェアとを用いて、コンピュータシステム１００を外部ネットワークに接続し、標準プロトコルに従ってデータを転送することができる。例えば、本明細書に開示された様々な処理の実施形態は、プロセッサ１０２上で実行されてもよいし、処理の一部を共有するリモートプロセッサと共に、ネットワーク（インターネット、イントラネットワーク、または、ローカルエリアネットワークなど）上で実行されてもよい。さらなるマスストレージデバイス（図示せず）が、ネットワークインターフェース１１６を通してプロセッサ１０２に接続されてもよい。

補助Ｉ／Ｏデバイスインターフェース（図示せず）が、コンピュータシステム１００と共に用いられてよい。補助Ｉ／Ｏデバイスインターフェースは、プロセッサ１０２がデータを送信すること、ならびに、より典型的には、他のデバイス（マイクロホン、タッチセンサ方式ディスプレイ、トランスデューサカードリーダ、テープリーダ、音声または手書き認識装置、バイオメトリクスリーダ、カメラ、携帯型マスストレージデバイス、および、他のコンピュータなど）からデータを受信することを可能にする汎用インターフェースおよびカスタマイズされたインターフェースを含みうる。

さらに、本明細書に開示された様々な実施形態は、さらに、様々なコンピュータ実装された動作を実行するためのプログラムコードを備えたコンピュータ読み取り可能な媒体を含むコンピュータストレージ製品に関する。コンピュータ読み取り可能な媒体は、データを格納できる任意のデータストレージデバイスであり、そのデータは、後にコンピュータシステムによって読み出されうる。コンピュータ読み取り可能な媒体の例は、以下の媒体すべてを含むがそれらに限定されない。ハードディスク、フロッピーディスク、および、磁気テープなどの磁気媒体、ＣＤ−ＲＯＭディスクなどの光学媒体、光学ディスクなどの磁気光学媒体、ならびに、特定用途向け集積回路（ＡＳＩＣ）、プログラム可能論理デバイス（ＰＬＤ）、および、ＲＯＭ／ＲＡＭデバイスなど、特別に構成されたハードウェアデバイス。プログラムコードの例としては、例えば、コンパイラによって生成されるマシンコード、または、インタープリタを用いて実行できる高水準コード（例えば、スクリプト）を含むファイルが挙げられる。

図２に示したコンピュータシステムは、本明細書に開示された様々な実施形態と共に利用するのに適切なコンピュータシステムの一例にすぎない。かかる利用に適した他のコンピュータシステムは、より多いまたは少ないサブシステムを含みうる。さらに、バス１１４は、サブシステムをリンクさせるよう機能する任意の相互接続スキームの例である。異なる構成のサブシステムを有する他のコンピュータアーキテクチャが利用されてもよい。

図３は、単語分割辞書、特に、最小意味単位の辞書を構築するための処理の一実施形態を示すフローチャートである。処理２００は、システム（１００など）上で実行されてよい。

工程２０１では、訓練セットに基づいて訓練される分類子が取得される。いくつかの実施形態において、訓練セットは、多くのサンプルエントリを含んでおり、訓練セット内の各訓練サンプルエントリは、単語長属性、単独利用率、句構造規則属性、意味属性、重複属性、および、分類結果を含む。

単語長属性の属性値は、訓練サンプルエントリ内のテキストの文字数を含む。

句構造属性の値は、訓練サンプルエントリの細粒度の単語の単独利用率値と、訓練サンプルエントリが句構造規則に従っているか否かを示すインジケータとを含む。

句の単独利用率の値は、（例えば、ログエントリ、アンカーテキストなどから取得された単独句など）単独句のセット内での出現頻度または出現回数を単位として測られてよい。

いくつかの実施形態において、システムは、様々なカテゴリの列挙エントリの所定のセット（例えば、ＴＶ番組、本のタイトル、商品ブランドなどの列挙エントリのセット）を提供する。意味属性の値は、サンプルエントリが列挙エントリのセットに含まれるか否かに依存する。言い換えると、意味属性値は、列挙エントリのセットにおける訓練サンプルエントリの包含状態を示す。訓練サンプルエントリが列挙エントリの所定のセットに含まれる場合、意味属性の値は、列挙エントリの対応する所定のセットのための識別子である。訓練サンプルエントリが、列挙エントリの所定のセットのいずれにも見いだされない場合、意味属性の値には、列挙エントリの任意の所定のセットの識別子とは異なる識別子が割り当てられる。

重複属性の値は、訓練サンプルエントリが様々なカテゴリの列挙エントリのいずれか内の別のエントリと重複する確率と、重複部分が細粒度の単語であるか否かを示すインジケータとを含む。

分類結果は、予め格付けされた訓練サンプルエントリが、複合意味単位であるか最小意味単位であるかを示すインジケータを含む。本明細書で用いられているように、複合意味単位とは、意味論的に意味を持つ（例えば、人間に理解可能な）部分にさらに分割できるテキストの一部のことであり、最小意味単位とは、意味を持つ部分にさらに分割できないテキストのことである。

例えば、訓練サンプルエントリ「Ｃ２管理」（企業管理）は、４文字である。したがって、この訓練サンプルエントリの単語長の値（すなわち、文字数）は４である。訓練サンプルエントリ「Ｃ２管理」（企業管理）は、細粒度の単語「Ｃ２」（企業）および「管理」（管理）を含む。これら２つの細粒度の単語が単独利用エントリのセットに現れる率が決定され、最も高い率が、訓練サンプルエントリ「Ｃ２管理」（企業管理）の句構造属性の値に対する細粒度の単語の単独利用率として機能するよう選択される。本明細書で用いられているように、単独利用エントリセットは、インターネットクエリログ、アンカーテキスト、または、任意の他の適切な技術によって取得されてよい。例えば、単独利用エントリセットを構築するための収集段階中に、ユーザが検索キーワード「Ｃ２」（企業）をインターネット検索エンジンに入力した場合、「Ｃ２」（企業）はクエリログに記録され、「Ｃ２」（企業）が単独で利用されうることが示される。さらに、カンマまたはスペースなどの区切りマーカによって分離されたユーザによって入力された各単語は、単独で利用された単語と見なすことができる。１，０００，０００件の事例で、細粒度の単語「管理」（管理）が単独利用エントリセット内で最も頻繁に出現すると仮定する。一方で、エントリが独立した細粒度の単語を欠いている（例えば、その単語が他の単語から独立して検索エンジンに入力されたことがない）場合、率は０である。

句構造規則は、所与の言語の構文を記述する方法である。規則は、一般的に、自然言語に関する幅広い研究を通して得られる。中国語の場合、句は、一般に、「形容詞＋名詞」、「名詞＋名詞」、または、「動詞＋名詞」で構成される。句構造規則は、正規表現の形態で格納されうる。訓練サンプルエントリ「Ｃ２管理」（企業管理）は、２つの細粒度の名詞で構成されている。「Ｃ２」（企業）および「管理」（管理）である。したがって、訓練サンプルエントリ「Ｃ２管理」（企業管理）は、句構造規則に従っている。句構造規則に従っていることを示すインジケータが１に設定され、句構造規則に従っていないことを示すインジケータが０であると仮定する。したがって、訓練サンプルエントリ「信息Ｃ９工程」（情報システム工学）の句構造属性の値は、（１，０００，０００，１）である。

いくつかの実施形態において、システムは、様々なカテゴリの列挙エントリの所定のセット（例えば、映画のタイトル、本のタイトル、商品ブランドなどの列挙エントリのセット）を提供する。意味属性の値は、サンプルエントリが列挙エントリのセットに含まれるか否かに依存する。例えば、ＴＶ／映画のタイトルのセットのための識別子をＳ２１とする。映画のタイトルのカテゴリに含まれるエントリは、Ｓ２１＝｛ゴッドファーザー，シュレック，甲方乙方．．．｝である。小説のタイトルのセットのための識別子はＳ２２である。小説のタイトルのセットに含まれるエントリは、Ｓ２２＝｛ホビット，二都物語，紅楼夢，．．．｝である。教科書の題材のセットのための識別子はＳ２３である。教科書の題材のセットに含まれるエントリは、Ｓ２３＝｛情報工学，心理学，哲学，企業管理，産業，および，商業管理，．．．｝である。都市名のセットのための識別子はＳ２４であり、エントリは、Ｓ２４＝｛北京，上海，ニューヨーク，フフホト，．．．｝を含む。訓練サンプルエントリ「Ｃ２管理」（企業管理）は、教科書の題材のセットに含まれる。したがって、訓練サンプルエントリ「Ｃ２管理」（企業管理）に対応する識別子は、Ｓ２３である。訓練サンプルエントリがいずれのタイプの列挙エントリセットにも含まれない場合、この訓練サンプルエントリの句構造値は、どのタイプの列挙エントリセットのための識別子とも異なる識別子、例えば、どの列挙エントリセットにも対応しないＳ２０になる。

重複属性の値を決定するために、訓練サンプル単語が、辞書に含まれる別のエントリと、訓練テキスト内で重複する確率が計算される。本明細書で用いられているように、重複とは、訓練サンプルエントリ内のいくつかの文字が、訓練サンプルエントリを含む訓練テキスト内で前または後ろに位置するいくつかの文字と組み合わされた時に、辞書内の別のエントリを形成する状況を指す。例えば、訓練サンプルエントリが「Ｃ２管理」（企業管理）であり、訓練テキストが「・・・Ｃ１０，Ｃ２管理科学Ｃ１１・・・」（周知の通り、企業管理科学は新たな主題である・・・）を含むと仮定する。ここで、「Ｃ２管理」（企業管理）および「管理科学」（管理科学）は、重複するテキスト「管理」（管理）を有する。２つの単語が重複する時、重複部分は、この例における「管理」（管理）のように、意味論的に意味を持つ粒度の細かい単語でありうる。一部の例では、重複は、単一の文字であってもよい。例えば、「甲方乙方」（ＦｉｒｓｔＰａｒｔｙＳｅｃｏｎｄＰａｒｔｙ（中国映画））および「方才」（たった今）は、文脈を拡張された訓練テキスト「・・・甲方乙方才上映・・・」（・・・ＦｉｒｓｔＰａｒｔｙＳｅｃｏｎｄＰａｒｔｙ、たった今劇場公開・・・）内で重複する。「甲方乙方」（ＦｉｒｓｔＰａｒｔｙＳｅｃｏｎｄＰａｒｔｙ）における細粒度の単語は、「甲方／乙方」（ＦｉｒｓｔＰａｒｔｙ／ＳｅｃｏｎｄＰａｒｔｙ）であり、重複部分は、文字「方」（「当事者」または「ちょうど」、文脈による）であり、「甲方乙方」（ＦｉｒｓｔＰａｒｔｙＳｅｃｏｎｄＰａｒｔｙ）の意味論的に意味を持つ細粒度の単語ではない。したがって、訓練サンプルエントリが訓練テキストに出現した時にその訓練サンプルエントリが辞書内の別のエントリと重複する確率が計算される。重複部分が細粒度の単語である場合、対応するインジケータは１に設定されてよく、そうでない場合、インジケータは０に設定されてよい。この実施形態において、訓練サンプルエントリ「Ｃ２管理」（企業管理）が他のエントリと重複する確率が２％であり、単語「管理」（管理）と重複する部分が、粒度の細かい単語であると仮定する。この場合、訓練サンプルエントリ「Ｃ２管理」（企業管理）の重複値は、（２％，１）である。

この例において、訓練サンプルエントリ「Ｃ２管理」（企業管理）は、複合意味要素に分類される。ここで、訓練サンプルエントリ「Ｃ２管理」（企業管理）、「フフホト」などの値および分類結果を、表１に示す。

表１に示された訓練セット内のすべての訓練サンプルエントリの属性値および格付け分類結果に基づいて、ＧＢＤＴ（勾配ブースト決定木）、最大エントロピ、サポートベクターマシン（ＳＶＭ）、または、分類子を訓練するための任意のその他の最適な技術などの機械学習技術が用いられてよい。本実施形態における分類子は、訓練セット内のエントリの単語長属性値、句構造属性値、意味属性値、および、重複属性値に少なくとも部分的に基づいて確立される。分類子は、分類されるエントリが、複合意味単位であるか最小意味単位であるかを判定するために用いられる。一般に、より大きい単語長属性値と、第１の要素の値が比較的高く、従来の句構造規則に従うエントリに適合する句構造属性とを有するエントリは、分類子によって複合意味単位であると判定される可能性が高い。小さい単語長属性値と、第１の要素の値が比較的低く、従来の句構造規則に従うエントリに適合しない句構造属性とを有するエントリは、分類子によって最小意味単位であると判定される可能性が高い。

分類子の訓練に用いられる機械学習技術は、当業者に周知である。例えば、決定木学習技術は、ソースセットを属性値テストに基づいてサブセットに分割し、再帰的に各派生サブセットに処理を繰り返すことによって、入力変数（例えば、文字数、単独利用率、句構造規則値、意味属性値、および、重複属性値）に基づいて目標変数（例えば、分類結果）の値を予測するためのモデルを構築する。サポートベクターマシン技術は、Ｎ個のクラスの１つに属するものとして訓練セットエントリをマークし、所与の各入力値について、その入力値を含む可能性のあるクラスを予測するモデルを構築する。

工程２０２では、分類対象のエントリが受信される。エントリは、既存の単語分割辞書、データベース、インターネットなど、様々なソースから受信されうる。

この例において、分類対象のエントリは、「五大Ｃ１２」（五大連池、中国の観光地）、「菊花茶」（菊花茶）、および、「Ｃ３管」（ステンレス鋼管）である。

工程２０３では、分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値が取得される。

分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値を決定する処理は、訓練セット内の訓練サンプルエントリについて上述の４つの属性の属性値を決定するために工程２０１において用いられたアプローチと同様である。分類対象のエントリの例の属性値情報を表２に示す。

工程２０４では、分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値が、分類対象のエントリの分類結果を取得するために、分類子に入力される。

この例における「五大Ｃ１２」（五大連池）、「菊花茶」（菊花茶）、および、「Ｃ３管」（ステンレス鋼管）の分類結果は、最小意味単位に対応する。「Ｃ１３」（ノートブックコンピュータバッグ）および「Ｃ１４」（ミニセダン）の分類結果は、複合意味単位に対応する。複合意味単位の粒度は、最小意味単位の粒度よりも大きい。

工程２０５では、分類対象の各エントリの分類結果に基づいて、エントリが最小意味単位か否かが判定される。エントリが最小意味単位でない場合、処理は工程２０７に進み、ここで、分類対象のエントリは複合意味単位の辞書に追加される。しかしながら、エントリが最小意味単位である場合、処理は工程２０６に進み、ここで、分類対象のエントリは最小意味単位の辞書に追加される。

この例では、「五大Ｃ１２」（五大連池）、「菊花茶」（菊花茶）、および、「Ｃ３管」（ステンレス鋼管）が最小意味単位の辞書に追加される。「Ｃ１３」（ノートブックコンピュータバッグ）および「Ｃ１４」（ミニセダン）は、複合意味単位の辞書に追加される。

最小意味単位の辞書および複合意味単位の辞書は、いくつかの実施形態において、細粒度単語のセグメント列（例えば、最小意味単位を含む列）を、より粗粒度の単語のセグメント列に変換するために用いられる。例えば、テキストは、最初に、最小意味単位の辞書に従って、最小意味単位を含むセグメント列に分割される（換言すると、列内のセグメントは、最小意味単位の辞書に見いだされる）。複合意味単位の辞書に基づいて、この最初の列内のセグメントは、複合意味単位の辞書に見いだされる粗粒度のセグメントを形成するように結合される。

工程２０８では、分類対象のエントリの分割モードと、エントリに対応する検索要素が、決定されて格納される。分割モードは２つのタイプを含む。分割可能および分割不可能である。エントリが分割可能であるか分割不可能であるかは、以下の２つの基準に基づいて判定される。（１）固有名詞であるか？これは、固有名詞データベースでエントリを検索することによって判定できる。固有名詞である場合、さらなる分割は不可能であり、分割不可能となる。「五大Ｃ１２」（五大連池）が一例である。（２）意味論的にさらに分割できるか？「黄金周」（ゴールデンウィーク）または「大哥大」（ダゲダ、携帯電話の中国語の俗語）のように、エントリが定型表現（例えば、全体として具体的な意味を持つ表現）である場合、分割不可能である。エントリが分割可能であるか否かは、固有名詞および定型表現の所定のデータベース内でエントリを検索することによって判定できる。固有名詞でも定型表現でもないエントリは、分割可能である。例えば、「Ｃ１５」（保湿化粧水）および「菊花茶」（菊花茶）は、固有名詞でも定型表現でもないので、分割可能である。

分類対象のエントリの分割モードが分割可能である場合、分類対象のエントリに対応する検索要素は、分類対象のエントリ内に含まれる細粒度の単語である。分類対象のエントリの分割モードが分割不可能である場合、分類対象のエントリに対応する検索要素は、分類対象のエントリ自体である。

最小意味単位の辞書内のエントリのデータ構造例を表３に示す。

処理２００は、既存の単語分割辞書内のエントリ（または、他の手段によって取得されたエントリ）を取得して、最小意味単位の辞書または複合意味単位の辞書のために分類するものとしても理解されうる。

上述のスキームによって決定された最小意味単位の辞書が含むエントリは、一般に、既存の粗粒度の単語分割辞書よりも短くて数が少ないため、単語分割辞書に基づく分割に必要な時間と、単語分割の曖昧性の可能性が低減される。したがって、単語分割処理の精度が向上し、辞書の維持の困難さが減少する。

図４は、最小意味単位の辞書および複合意味単位の辞書に基づいて、複数の粒度の分割結果を取得する処理の一実施形態を示すフローチャートである。

工程３０１では、受信されたテキストに対して分割が実行される。分割は、所与のテキストについて最小意味単位の辞書に基づいて実行される。単語分割を通して取得されたセグメント列は、分割結果の中間セットと見なされる（中間粒度の分割結果ともいう）。分割された列の中のセグメントは、最小意味単位を含む。次いで、処理は、同時に工程３０２および工程３０３に進む。

いくつかの実施形態において、所与のテキストは、最小意味単位の辞書内のエントリとマッチングされ、既存の曖昧性除去モデルを用いて、生じうる任意の分割の曖昧性問題が解決される。例えば、所与のテキストが「本Ｃ３管用Ｃ５Ｃ６Ｃ７」（このステンレス鋼管は１級鋼を用いて鋳造されている）であり、辞書クエリが、最小意味単位の辞書に基づいて左から右へと実行されるとする。セグメント内の文字の最大数が６であると仮定すると、所与のテキスト「本Ｃ３管用」（このステンレス鋼管用いる）の最も左にある文字から始まる最初の６文字が、最小意味単位の辞書に見いだされうるか否かを判定するために評価される。言い換えると、６文字の処理窓が、処理対象の文字列を抽出するために用いられる。それらの文字が最小意味単位の辞書に見いだされた場合、これらの６文字からなるセグメントは、第１の単語分割列に記録される。見いだされなかった場合、最も右側の文字が削除され、残りの５文字「本Ｃ３管」（このステンレス鋼管）を含むセグメントが再び比較される。この処理は、すべての文字が処理されるか、最小意味単位が見いだされるまで、残りの文字に対して繰り返される。この例では、文字列「本Ｃ３管用」（このステンレス鋼管用いる）について、マッチする最小意味単位が見いだされない。

すべての６文字が処理された後、窓は１文字分移動し、処理は次の６文字「Ｃ３管用一」（ステンレス鋼管用いる１）について繰り返される。それらの文字が最小意味単位の辞書に見いだされるか否かを判定するために、評価が行われる。見いだされた場合、これら６文字のセグメントは、第１の単語分割列に記録される。見いだされなかった場合、最も右側の文字が削除され、残りの５文字「Ｃ３管用」（ステンレス鋼管用いる）が再び比較され、この処理が残りの文字に対して繰り返される。この反復において、最小意味単位「Ｃ３」（ステンレス鋼）が特定される。

窓の移動および処理の反復を繰り返すことによって、所与のテキストに含まれるすべての最小意味単位が取得される。特定された最小意味単位は、複数のセグメント列（複数の単語分割経路）を構成して、曖昧性を生じうる。いくつかの実施形態において、単語分割の曖昧性が生じた場合、複数の列から１つのセグメント列が、条件付き確率場（ＣＲＦ）モデル、隠れマルコフモデル（ＨＭＭ）、最大エントロピ（ＭＥ）モデルなどの曖昧性除去モデルに基づいて選択される。当業者に周知のように、これらの曖昧性除去モデルは、統計的情報学習を用いたコーパス分析に基づいており、ここで、単語分割は様々な文脈素性に従って実行される。セグメント列「本−Ｃ３管−用−Ｃ５−Ｃ６−Ｃ７」（この−ステンレス鋼管−用いる−１級−鋼−鋳造）が得られるまで、このように処理が続けられる。

最小粒度の単語分割から取得されたセグメント列は、「本−Ｃ３−管−用−Ｃ５−Ｃ６−Ｃ７」（この−ステンレス鋼−管−用いる−１級−鋼−鋳造）である。既存の下から上への動的結合スキームは、意味項目「Ｃ６管」（鋼管）を含まない「本−Ｃ３−管用−Ｃ５−Ｃ６−Ｃ７」（この−ステンレス鋼−有用−１級−鋼−鋳造）を生成しうる。したがって、分割の曖昧性があり、後の検索の際に精度が低くなる。さらに、失われた用語があるため、「Ｃ６管」（鋼管）に関連する文書が見つからず、検索の再現率も減少する。対照的に、本願は、最小の単語粒度ではなく最小意味単位に基づいて単語分割を実行することにより、分割の曖昧性の可能性を低減し、上述の問題をより効果的に解決する。

別の例として、所与のテキストが、「Ｃ２管理科学Ｃ８」（企業管理科学技術）であるとする。最小意味単位の辞書に従って単語分割から取得されるセグメント列は、「Ｃ２−管理−科学−Ｃ８」（企業−管理−科学−技術）である。既存の下から上への動的結合スキーム（例えば、既存の最大粒度単語分割スキーム）に従った場合、最大粒度単語分割を行った際に、「Ｃ２管理」（企業管理）および「管理科学」（管理科学）の間、「管理科学」（管理科学）および「科学Ｃ８」（科学技術）の間、ならびに、「管理」（管理）および「理科」（科学）の間に、分割の曖昧性の問題が生じる。最大粒度に基づいた単語分割は、大量のエントリを必要とし、その結果、大量の不必要な分割の曖昧性が生じ、分割の精度が下がる。最小意味単位の中のエントリの方が、連結修正語（ｃｏｍｂｉｎａｔｉｏｎｍｏｄｉｆｉｅｒ）を有する可能性が低い。したがって、最小意味単位に基づいた単語分割は、分割の精度を高めうる。

工程３０２では、最小意味単位よりも大きい粒度を有する単語分割辞書（例えば、処理２００を用いて得られた複合意味単位の辞書）に基づいて、曖昧性除去モデルを用いて、中間粒度の分割結果内のセグメントが結合され、第１の粒度の分割結果が取得される。第１の粒度の分割結果は、中間粒度の分割結果よりも粗い粒度（すなわち、大きい粒度）であることから、粗粒度の分割結果とも呼ばれる。

「Ｃ２−管理−科学−Ｃ８」（企業−管理−科学−技術）という中間粒度の分割結果を例として、より大きい粒度を有する単語分割辞書がエントリ「Ｃ２管理」（企業管理）および「科学Ｃ８」（科学技術）を含むと仮定する。したがって、列「Ｃ２−管理−科学−Ｃ８」（企業−管理−科学−技術）内のセグメントは、より粗粒度のセグメントに結合されて、「Ｃ２管理−科学Ｃ８」（企業管理−科学技術）という結合後のより粗粒度の分割結果を形成しうる。

工程３０３では、単語分割ツリー構造が任意選択的に形成される。ここで、所与のテキストが、ルートノードを形成するために用いられ、工程３０１において取得された中間粒度の分割結果内の各セグメントが、ルートノードのサブノードを形成するために用いられる。左から右へ順番に、セグメントに対応する各ノードがルートノードに追加される。図５は、単語分割ツリー構造の一例を示す図である。この例では、ノード５５２がルートノード（所与のテキスト）に対応し、ノード５５４がサブノード（中間の粒度の分割結果）に対応する。

図４に戻ると、工程３０４では、中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素が、最小意味単位の辞書内で検索される。処理２００に関連して上述したように、セグメントおよびそれらに対応する検索要素は、最小意味単位の辞書に格納される。一例として表３を参照すると、所与のテキスト「本Ｃ３管用Ｃ５Ｃ６Ｃ７」（このステンレス鋼管は１級鋼を用いて鋳造されている）について、中間粒度の分割結果は「本−Ｃ３管−用−Ｃ５−Ｃ６−Ｃ７」（この−ステンレス鋼管−用いる−１級−鋼−鋳造）である。例えば、セグメント「Ｃ３管」（ステンレス鋼管）に対応する検索要素は、「Ｃ３」（ステンレス鋼）および「Ｃ６管」（鋼管）である。

工程３０５では、エントリに対応する検索要素は、単語分割結果ツリー内のリーフノードを形成するために用いられる。図５のツリーの例に示すように、リーフノードはノード５５６である。

工程３０６では、第２の粒度の分割結果が、検索要素に基づいて取得される。第２の粒度の分割結果は、中間粒度の分割結果よりも細かい粒度であることから、細粒度の分割結果とも呼ばれる。いくつかの実施形態において、単語分割結果ツリー内のリーフノードは、第２の粒度の分割結果と見なされる。図５のツリーの例を参照すると、所与のテキスト「本Ｃ３Ｃ６管用Ｃ５Ｃ６Ｃ７」（このステンレス鋼管は１級鋼を用いて鋳造されている）について取得されるより細粒度の分割結果は、「本−Ｃ３−Ｃ６管−用−Ｃ５−Ｃ６−Ｃ７」（この−ステンレス鋼−鋼管−用いる−１級−鋼−鋳造）である。

処理３００は、処理２００で構築された最小意味単位の辞書を用いて、所与のテキストに単語分割を実行し、中間粒度の分割結果を取得する。次いで、中間粒度の分割結果よりも大きい粒度を有する第１の粒度の分割結果を取得するために、最小意味単位の辞書よりも大きい粒度を有する辞書に従って、中間粒度の分割結果に対して結合が行われる。また、中間粒度の分割結果よりも粒度の細かい第２の粒度の分割結果は、最小意味単位に格納された各エントリに対応する検索要素と、中間粒度の分割結果とに基づいて取得される。このように、所与のテキストに対応する少なくとも３つの粒度の分割結果を提供することが可能であり、単語分割の粒度に関して様々なタイプのアプリケーションが要求する異なる要件を満たすことができる。したがって、従来技術の問題、すなわち、従来技術が複数の粒度の分割結果を提供した時に（意味項目が失われた結果として）再現率が低くなる問題および単語分割の精度が低くなる問題を回避することができる。

図６は、単語分割辞書を構築するためのシステムの一実施形態を示すブロック図である。システムは、処理２００を実行するよう構成される。この例において、システム５００は、分類子取得モジュール５０１、インターフェースモジュール５０２、属性値決定モジュール５０３、分類結果決定モジュール５０４、および、第１のエントリ追加モジュール５０５を備える。

分類子取得モジュール５０１は、訓練セットに基づいて分類子を訓練するよう構成されており、訓練セット内の各訓練サンプルエントリは、上述のように、単語長属性、句構造属性、意味属性、重複属性、および、分類結果を有する。

インターフェースモジュール５０２は、分類対象のエントリを受信するよう構成されている。インターフェースモジュールの例としては、ポート、ケーブル、有線または無線ネットワークインターフェースカードなどの外部接続、および、通信バスなどの内部接続が挙げられるが、これらに限定されない。

属性値決定モジュール５０３は、インターフェースモジュール５０２によって取得された分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値を決定するよう構成されている。

分類結果決定モジュール５０４は、分類子取得モジュール５０１によって取得された分類子と、属性値決定モジュール５０３によって決定された分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値とに基づいて、分類対象のエントリを決定し、分類対象のエントリが最小意味単位であるか否かを判定するよう構成されている。

第１のエントリ追加モジュール５０５は、分類対象のエントリが分類結果決定モジュール５０４によって最小意味単位であると判定された場合に、最小意味単位の辞書に分類対象のエントリを追加するよう構成されている。

図６のデバイスは、さらに、分類対象のエントリが最小意味単位でないと分類結果決定モジュール５０４によって判定された場合に、複合意味単位の辞書に分類対象のエントリを追加するよう構成された第２のエントリ追加モジュール５０６を備えることが好ましい。

デバイスは、さらに、第１のエントリ追加モジュール５０５が分類対象のエントリを最小意味単位の辞書に追加した後に、分類対象のエントリの分割モードと、分類対象のエントリに対応する検索要素とを、最小意味単位の辞書に格納するための検索要素格納モジュール５０７を備えることが好ましい。

図７は、複数の粒度の分割結果を提供するよう構成されたシステムの一実施形態を示すブロック図である。システム６００は、単語分割辞書構築モジュール６０１、単語分割処理モジュール６０２、結合モジュール６０３、検索モジュール６０４、および、決定モジュール６０５を備える。システムは、処理３００を実行するよう構成されている。

単語分割辞書構築モジュール６０１は、最小意味単位の辞書を構築するよう構成されている。

単語分割処理モジュール６０２は、辞書構築モジュール６０１によって構築された最小意味単位の辞書に従って所与のテキストに単語分割を実行し、中間粒度の分割結果を取得するよう構成されている。

結合モジュール６０３は、最小意味単位の辞書よりも大きい粒度の辞書と、曖昧性除去モデルとに基づいて、単語分割処理モジュール６０２によって取得された中間粒度の分割結果を結合し、より粗粒度の分割結果を取得するよう構成されている。

検索モジュール６０４は、単語分割処理モジュール６０２によって取得された中間粒度の分割結果内の列に含まれる各セグメントに対応する検索要素を、（単語分割辞書構築モジュール６０１によって構築された）最小意味単位の辞書内で検索するよう構成されている。

決定モジュール６０５は、より細粒度の分割結果を決定するよう構成されている。

図８は、単語分割処理モジュールの一実施形態を示すブロック図である。この例において、単語分割処理モジュール７００（例えば、図７の６０２）は、単語分割サブモジュール７０１、第１の決定サブモジュール７０２、および、第２の決定サブモジュール７０３を備える。

単語分割サブモジュール７０１は、単語分割辞書構築モジュール６０１によって構築された最小意味単位の辞書に基づいて所与のテキストに単語分割を実行するよう構成されている。

第１の決定サブモジュール７０２は、単語分割サブモジュール７０１による単語分割によって取得されたセグメント列が１つだけであった場合に、中間粒度の単語分割結果としてセグメント列を形成するよう構成されている。

第２の決定サブモジュール７０３は、単語分割サブモジュール７０１が複数のセグメント列を生成した場合に、曖昧性除去モデルに基づいて、中間の粒度の単語分割結果として１つのセグメント列を選択するよう構成されている。

図９は、決定モジュールの一実施形態を示すブロック図である。この例において、決定モジュール８００（例えば、図７の６０５）は、分割結果ツリー構築サブモジュール８０１および決定サブモジュール８０２を備える。

分割結果ツリー構築サブモジュール８０１は、分割結果のツリーを形成するよう構成されている。いくつかの実施形態において、このモジュールは、所与のテキストを用いてルートノードを形成し、中間粒度の分割結果内の各セグメントを用いてルートノードのサブノードを形成し、セグメントに対応するノードのリーフノードとしてセグメントに対応する検索要素を用いる。

決定サブモジュール８０２は、分割結果ツリー構築サブモジュール８０１によって構築された分割結果ツリーにおける各リーフノードを順番に取得し、順番に取得されたリーフノードを、より細粒度の単語分割結果と見なすよう構成されている。

上述のモジュールは、１または複数の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、特定の機能を実行するよう設計されたプログラム可能論理デバイスおよび／または特定用途向け集積回路などのハードウェアとして、もしくは、それらの組み合わせとして実装することができる。いくつかの実施形態において、モジュールは、コンピュータデバイス（パーソナルコンピュータ、サーバ、ネットワーク装置など）に本発明の実施形態に記載された方法を実行させるための複数の命令など、不揮発性記憶媒体（光学ディスク、フラッシュ記憶装置、携帯用ハードディスクなど）に格納することができるソフトウェア製品の形態で具現化されてよい。モジュールは、単一のデバイス上に実装されてもよいし、複数のデバイスにわたって分散されてもよい。モジュールの機能は、互いに統合されてもよいし、複数のサブモジュールにさらに分割されてもよい。

当業者であれば、適切なハードウェアにプログラムから命令させることによって、上述の実施形態の実現に関与する工程の全部または一部を実現できることを理解できる。このプログラムは、ＲＯＭ／ＲＡＭ、磁気ディスク、光学ディスクなどの読み取り可能な記憶媒体に格納できる。

明らかに、当業者は、本発明の精神および範囲から逸脱することなく、本願を変形および変更することができる。したがって、本願のこれらの変形例および変更例が、特許請求の範囲および等価の技術の範囲内にある場合、本願は、これらの変形例および変更例をも網羅するものである。

上述の実施形態は、理解しやすいようにいくぶん詳しく説明されているが、本発明は、提供された詳細事項に限定されるものではない。本発明を実施する多くの代替方法が存在する。開示された実施形態は、例示であり、限定を意図するものではない。
適用例１：テキスト処理の方法であって、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得し、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成すること、を備える、方法。
適用例２：適用例１に記載の方法であって、さらに、テキストを分類するための分類子を訓練し、前記訓練は、複数の訓練サンプルエントリに基づいて行われ、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書を構築し、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含むこと、を備える、方法。
適用例３：適用例１に記載の方法であって、前記受信したテキストは、単語区切り記号のない言語である、方法。
適用例４：適用例２に記載の方法であって、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加することを備える、方法。
適用例５：適用例２に記載の方法であって、前記訓練された分類子を用いた前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、方法。
適用例６：適用例２に記載の方法であって、さらに、前記エントリに対応する検索要素を決定し、前記最小意味単位の辞書に前記検索要素を保存すること、を備える、方法。
適用例７：適用例２に記載の方法であって、前記エントリに対応する検索要素の決定は、前記エントリが分割可能であるか否かを判定し、前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、方法。
適用例８：適用例１に記載の方法であって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、前記中間粒度の分割結果の曖昧性を解決することを含む、方法。
適用例９：テキスト処理のためのシステムであって、１または複数のプロセッサであって、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得し、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成するよう構成されている１または複数のプロセッサと、前記１または複数のプロセッサに接続され、前記１または複数のプロセッサに命令を提供するよう構成されている１または複数のメモリと、を備える、システム。
適用例１０：適用例９に記載のシステムであって、前記１または複数のプロセッサは、さらに、複数の訓練サンプルエントリに基づいて、テキストを分類するための分類子を訓練し、前記最小意味単位の辞書を構築するよう構成され、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含む、システム。
適用例１１：適用例９に記載のシステムであって、前記テキストは、単語区切り記号のない言語である、システム。
適用例１２：適用例１０に記載のシステムであって、前記１または複数のプロセッサは、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加するよう構成されている、システム。
適用例１３：適用例１０に記載のシステムであって、前記訓練された分類子を用いた、前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、システム。
適用例１４：適用例１０に記載のシステムであって、前記１または複数のプロセッサは、さらに、前記エントリに対応する検索要素を決定しと、前記最小意味単位の辞書に前記検索要素を保存するよう構成されている、システム。
適用例１５：適用例１０に記載のシステムであって、前記エントリに対応する検索要素の決定は、前記エントリが分割可能であるか否かを判定し、前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、システム。
適用例１６：適用例９に記載のシステムであって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、前記中間粒度の分割結果の曖昧性を解決することを含む、システム。
適用例１７：テキスト処理ためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体内に具現化され、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得するためのコンピュータ命令と、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得するためのコンピュータ命令と、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索するためのコンピュータ命令と、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成するためのコンピュータ命令と、を備える、コンピュータプログラム製品。
適用例１８：適用例１７に記載のコンピュータプログラム製品であって、さらに、複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練するためのコンピュータ命令と、前記最小意味単位の辞書を構築するためのコンピュータ命令とを備え、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加すること、を含む、コンピュータプログラム製品。
適用例１９：テキスト処理のためのシステムであって、１または複数のプロセッサであって、複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練し、最小意味単位の辞書を構築するよう構成されている、１または複数のプロセッサと、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含み、前記１または複数のプロセッサに接続され、前記１または複数のプロセッサに命令を提供するよう構成されている１または複数のメモリと、を備える、システム。

Claims

コンピュータによって実行される、テキスト処理の方法であって、
最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することであって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、
単語分割ツリー構造を形成し、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、
対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成し、
前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノードを取得すること、
を備える、方法。
請求項１に記載の方法であって、さらに、
テキストを分類するための分類子を訓練し、
前記訓練は、複数の訓練サンプルエントリに基づいて行われ、
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
前記最小意味単位の辞書を構築し、
前記最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加することを含むこと、
を備える、方法。
請求項１に記載の方法であって、前記受信したテキストは、単語区切り記号のない言語である、方法。
請求項２に記載の方法であって、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加することを備える、方法。
請求項２に記載の方法であって、前記訓練された分類子を用いた前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、方法。
請求項２に記載の方法であって、前記エントリに対応する検索要素の決定は、
前記エントリが固有名詞であるか否かおよび意味的にさらに分割可能であるか否かに基づいて前記エントリが分割可能であるか否かを判定し、
前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、
前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、方法。
請求項１に記載の方法であって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、曖昧性除去モデルに基づいて前記中間粒度の分割結果の曖昧性を解決することを含む、方法。
テキスト処理のためのシステムであって、
１または複数のプロセッサであって、
最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することであって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、
単語分割ツリー構造を形成し、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、
対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成し、
前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノードを取得するよう構成されている１または複数のプロセッサと、
前記１または複数のプロセッサに接続され、前記１または複数のプロセッサに命令を提供するよう構成されている１または複数のメモリと、
を備える、システム。
請求項８に記載のシステムであって、前記１または複数のプロセッサは、さらに、
複数の訓練サンプルエントリに基づいて、テキストを分類するための分類子を訓練し、
前記最小意味単位の辞書を構築するよう構成され、
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
前記最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加することを含む、
システム。
請求項８に記載のシステムであって、前記テキストは、単語区切り記号のない言語である、システム。
請求項９に記載のシステムであって、前記１または複数のプロセッサは、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加するよう構成されている、システム。
請求項９に記載のシステムであって、前記訓練された分類子を用いた、前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、システム。
請求項９に記載のシステムであって、前記エントリに対応する検索要素の決定は、
前記エントリが固有名詞であるか否かおよび意味的にさらに分割可能であるか否かに基づいて前記エントリが分割可能であるか否かを判定し、
前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、
前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、システム。
請求項８に記載のシステムであって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、曖昧性除去モデルに基づいて前記中間粒度の分割結果の曖昧性を解決することを含む、システム。
テキスト処理ためのコンピュータプログラムであって、
最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得するための機能であって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得するための機能と、
単語分割ツリー構造を形成するための機能と、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索するための機能と、
対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成するための機能と、
前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノードを取得するための機能と、
をコンピュータによって実現させるコンピュータプログラム。
請求項１５に記載のコンピュータプログラムであって、さらに、
複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練するための機能と、
前記最小意味単位の辞書を構築するための機能とをコンピュータによって実現させ、
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
前記最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加すること、を含む、コンピュータプログラム。
テキスト処理のためのシステムであって、
１または複数のプロセッサであって、
複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練し、
最小意味単位の辞書を構築するよう構成されている、１または複数のプロセッサと
前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
文字数と、
単独利用率と、
前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
最小意味単位の辞書の構築は、
分類対象のエントリを受信し、
前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含み、
前記１または複数のプロセッサに接続され、前記１または複数のプロセッサに命令を提供するよう構成されている１または複数のメモリと、
を備える、システム。