JP5788015B2 - 複数の粒度でのテキスト分割 - Google Patents

複数の粒度でのテキスト分割 Download PDF

Info

Publication number
JP5788015B2
JP5788015B2 JP2013539361A JP2013539361A JP5788015B2 JP 5788015 B2 JP5788015 B2 JP 5788015B2 JP 2013539361 A JP2013539361 A JP 2013539361A JP 2013539361 A JP2013539361 A JP 2013539361A JP 5788015 B2 JP5788015 B2 JP 5788015B2
Authority
JP
Japan
Prior art keywords
entry
semantic unit
dictionary
training sample
entries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013539361A
Other languages
English (en)
Other versions
JP2014500547A (ja
Inventor
スン・ジエン
ホウ・レイ
ミーン ターン・ジーン
ミーン ターン・ジーン
チュウ・ミン
リーン リヤオ・シャオ
リーン リヤオ・シャオ
ジーン シュイ・ビーン
ジーン シュイ・ビーン
ゴーン プオン・レン
ゴーン プオン・レン
ヤーン・ヤーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2014500547A publication Critical patent/JP2014500547A/ja
Application granted granted Critical
Publication of JP5788015B2 publication Critical patent/JP5788015B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Description

他の出願の相互参照
本願は、すべての目的のために参照により本明細書に組み込まれる、発明の名称を「A METHOD OF PROVIDING MULTI−GRANULARITY SEGMENTATION RESULTS AND A DEVICE FOR SAME(複数粒度の分割結果を提供するための方法および装置)」とする、2010年11月22日出願の中国特許出願第201010555763.4号に基づく優先権を主張する。
本願は、単語情報処理技術の分野に関し、特に、単語分割辞書の構築に関する。
言語は、単語区切り記号を有するか否かに従って、2つのタイプに分類できる。一方のタイプは、英語、ドイツ語、および、多くの他のヨーロッパ言語などであり、単語区切り記号を有する。一般に、単語間のスペースが、単語区切り記号として機能する。もう一方のタイプは、文中の単語に印をつけるための単語区切り記号を持たない。中国語、日本語、および、韓国語など、多くの東アジアの言語は、単語区切り記号のない言語である。
検索エンジン、機械翻訳、および、音声合成アプリケーションは、単語区切り記号のない言語のテキストを分割し、文に由来するセグメント(文節)を含むセグメント列を形成することをしばしば必要とする言語テキスト処理の問題を伴う。分割処理は、しばしば、単語分割辞書(語彙)を含んでおり、単語分割辞書は、かなりの数の予め格納されたエントリを含むデータベース/辞書を備える。単語分割の際、所与のテキストは、特定の戦略に従って単語分割辞書のエントリとマッチングされる(例えば、左から右への順方向最大マッチング法(forward maximum matching method)、右から左への逆方向最大マッチング法(backward maximum matching method)、最小分割法など)。例えば、最大マッチング法では、入力テキストに一致しうる最長のエントリが辞書内で見つかると、それが単語として特定され、特定された単語がセグメントと見なされる。これを繰り返すと、所与のテキストを、セグメントからなるセグメント列に分割することができる。セグメントは、うまく一致した単語および文字、もしくは、動的に特定された単語を含みうる。
所与のテキストについて、結果として得られた単語セグメント列内のセグメントが長いほど(すなわち、セグメント列に含まれるセグメントの数が少ないほど)、単語分割粒度が大きくなる。逆に、結果として得られた単語セグメント列内のセグメントの数が多いほど、単語分割粒度が小さくなる。なお、以下では中文をC〜Cの符号で記し、中文と符号との対応関係は末尾の表4に示す。例えば、所与のテキスト「C1人民共和国成立了」(中華人民共和国が建国された)について、細粒度の単語分割結果は、「C1−人民−共和国−成立−了」(中華−人民−共和国−建国−された)であり、粗粒度の単語分割結果は、「C1人民共和国−成立−了」(中華人民共和国−建国−された)である。
異なるアプリケーションでは、分割結果の粒度に関する要件が異なる。例えば、機械翻訳においては、粒度はいくぶん大きい方が好ましく、例えば、「C2管理」(企業管理)は、単一のセグメントであることが好ましい。しかし、検索エンジンの索引システムでは、「C2管理」は、一般に2つのセグメントに分割される(「C2」(企業)および「管理」(管理))。
分割結果に関する粒度の要件は、同じタイプのアプリケーションでも異なりうる。以下では、説明の目的で、検索エンジンアプリケーションの例を用いる。検索エンジンアプリケーションにおいて、検索エンジンは、異なる分野に対して異なる単語分割粒度を必要とする。例えば、電子商取引の分野で(例えば、商品検索を行うために)用いられる検索エンジンでは、販売者および購入者の両者が、検索において高い再現率を求める。これを達成するために、検索システムは、より小さい索引の粒度を有する必要があるため、より細粒度の分割結果を必要とする。一般的なウェブページ検索に用いられる検索エンジンでは、莫大な数のインターネットウェブページがあることから、検索の精度が、ユーザにとって特に重要になる。これを達成するために、検索システムは、より粗粒度の分割結果を必要とする。このように、検索の再現率および検索の精度が、検索の質を評価するための重要な尺度になる。検索の再現率は、システムが関連情報をどれだけうまく見つけるかを測るものであり、見いだされた関連文書の、関連文書の総数に対する比である。検索の精度は、システムが関連情報を見つける際にどれだけうまく実行するかを測るものであり、見いだされた関連文書の、見出された全文書に対する比である。単語分割粒度は、検索再現率および検索精度に関係する。一般的に言うと、単語分割粒度が小さいほど、検索再現率が高くなり、単語分割粒度が大きいほど、検索精度が高くなる。
分割結果に関する粒度の要件は、同じタイプのアプリケーションの同じ分野内でも様々な使用段階に応じて異なっている。再び、説明のためにウェブ検索エンジンアプリケーションを一例として用いる。検索再現率および検索精度の両方に関するユーザの要求を満たすために、粒度要件は、検索の索引段階および順序付け段階の間で異なる。索引段階では、十分な数のウェブページが検索されうるように、より細粒度の分割結果が必要とされる。順序付け段階では、検索精度への要求を満たし、関連のないウェブページをユーザに提供することを避けるために、より粗粒度の分割結果が必要とされる。
上述の問題を解決するために、従来技術は、主に、2つのスキームを用いて、複数の粒度の分割結果を提供する。
図1Aは、複数の粒度で分割結果を提供するための典型的なスキームを示している。まず、最小粒度の単語分割が実行される。次いで、下から上への動的な結合が行われる。具体的には、より細粒度の単語分割辞書Aを用いて、所与のテキストに単語分割を実行する。異なるセグメント列が、単語分割処理で生成されうる。例えば、テキストS1234567(ここで、Snは文字を表す)は、S12−S34−S5−S67またはS123−S45−S67に分割されうる。次いで、セグメント列の1つ(ここでは、S12−S34−S5−S67とする)が、所定の選択アルゴリズムに従って、最適セグメント列として選択されうる。所定のアルゴリズムは、統計モデルに基づいたアルゴリズムであってよい。
より粗粒度の分割結果を提供するために、列S12−S34−S5−S67に結合が実行される。具体的な結合処理は、列S12−S34−S5−S67内の2つのセグメントの組み合わせが、より長いエントリを含む単語分割辞書B内のエントリと一致するか否かを評価することを必要とする。これら2つのセグメントが結合されると、より粗粒度の結合済みセグメント列が生じる。ここで、S12およびS34を結合することができ、S5およびS67を結合することができると仮定すると、より粗粒度の結合済みセグメント列は、S1234−S567となる。
この方法を用いる場合、いくつかの意味項目が、単語分割中に失われる。例えば、意味要素S123およびS45が失われる。説明のために、ここで実際の例を用いる。テキストを「本C3管用C5C6C7」(このステンレス鋼管は、1級鋼を用いて鋳造されている)とする。ここで、「C3管」(ステンレス鋼管)は、実際は、2つの意味項目を含む。すなわち、「C3」(ステンレス鋼)および「「ム「オ管」(鋼管)である。最小粒度の「C3管」(ステンレス鋼管)を「C3−管」(ステンレス鋼−管)(ここで「−」は2つの隣接するセグメントを分離する記号)に分割した後に、再びこれらを結合して「C3管」(ステンレス鋼管)を形成した場合、意味項目「C6管」(鋼管)が失われる。その結果として、「「ム「オ管」(鋼管)という用語は、このテキストの検索中に見つからなくなる。最小粒度の「C3管」(ステンレス鋼管)を「C4管」(ステン−レス−鋼管)に分割した後に、再びこれらを結合して「C3管」(ステンレス鋼管)を形成した場合、意味項目「C3」(ステンレス鋼)が失われる。したがって、「C3」(ステンレス鋼)は、このテキストの検索中に見つからなくなる。
さらに、結合の精度を保証するのは困難である。所与のテキストの最小粒度単語分割から得られたセグメント列が、「本−C3−管−用−C5−C6−C7」(この−ステンレス鋼−管−1級−鋼−鋳造)であるとすると、結合の際に曖昧性が生じる。結合された結果は、「C3管」(ステンレス鋼管)または「管用」(有用)でありうる。所与のテキストの最小粒度単語分割から得られたセグメント列が、「本−C3−管用−C5−C6−C7」(この−ステンレス鋼−有用−1級−鋼−鋳造)であった場合、再び結合しても、意味項目「C3管」(ステンレス鋼管)を得ることはできない。
図1Bは、複数の粒度で分割結果を提供するための別の典型的なスキームを示している。まず、最大粒度の単語分割が実行される。次いで、上から下への分割が実行される。具体的には、より粗粒度の単語分割辞書Cが用いられ、モデルおよびアルゴリズムが、所与のテキストS1234567の動的な単語分割を実行(最適なセグメント列を選択)してセグメント列S1234−S567を得るために用いられる。
より細粒度の単語分割結果を得るために、S1234−S567内の各意味要素が、再び分割される。具体的な分割処理は、列S1234−S567内の各セグメントを評価して、単語分割辞書C内の2以上のその他のより細粒度のエントリを含むか否かを判定する。含む場合、このセグメントは、2以上のその他のエントリに分割される。S1234がS12およびS34に分割され、S567がS5およびS67に分割されうると仮定すると、分割後に得られる細粒度の単語分割結果は、S12−S34−S5−S67となる。
この方法を用いる場合、最大粒度の単語分割中に生じる曖昧性の問題を解決するために、より多くの粗粒度のエントリが辞書に記録される必要がある。例えば、「C2管理科学C8」(企業管理科学技術)というテキストがあるとすると、より粗粒度のエントリ「C2管理」(企業管理)および「管理科学」(管理科学)が辞書に記録されている場合、「C2管理科学」(企業管理科学)は、「C2管理−科学」(企業管理−科学)または「C2−管理科学」(企業−管理科学)に分割されうる。この曖昧性の解決方法は、さらに長いエントリ「C2管理科学」(企業管理科学)も辞書に記録することである。しかしながら、「C2管理科学」(企業管理科学)は、「科学C8」(科学技術)に関する分割の曖昧性も生じる。したがって、かかる粗粒度のエントリで構成された集合は、閉集合ではない。辞書を拡大すると、辞書の維持が困難になる。
以上のように、単語分割辞書内のエントリの粒度が大きくなるほど、単語分割中に生成される異なるセグメント列の数が多くなる。すなわち、より多い単語分割経路があるため、曖昧性の問題も多くなる。最大粒度分割の精度を保証することが困難になる。
最大粒度の分割結果がある時、辞書をチェックすることによって、これらのセグメントの細粒度の単語を取得できる。しかしながら、辞書が拡大すると、エントリの質を維持しつつ、これらのエントリと、これらのエントリの細粒度の単語とを手作業で維持するのは、高コストになりうる。
要約すると、複数の粒度で分割結果を提供するための従来技術には、通例、再現率が低いことにより意味項目が失われるという問題、または、単語分割辞書が非常に膨大であり単語分割処理の精度が低いという問題がある。
以下の詳細な説明と添付の図面において、本発明の様々な実施形態を開示する。
複数の粒度で分割結果を提供するための典型的なスキームを示す図。
複数の粒度で分割結果を提供するための別の典型的なスキームを示す図。
テキストを分割し、複数の粒度の分割結果を提供するためのシステムの一実施形態を示す図。
単語分割辞書、特に、最小意味単位の辞書を構築するための処理の一実施形態を示すフローチャート。
最小意味単位の辞書および複合意味単位の辞書に基づいて、複数の粒度の分割結果を取得する処理の一実施形態を示すフローチャート。
単語分割ツリー構造の一例を示す図。
単語分割辞書を構築するためのシステムの一実施形態を示すブロック図。
複数の粒度の分割結果を提供するよう構成されたシステムの一実施形態を示すブロック図。
単語分割処理モジュールの一実施形態を示すブロック図。
決定モジュールの一実施形態を示すブロック図。
本発明は、処理、装置、システム、物質の組成、コンピュータ読み取り可能な格納媒体上に具現化されたコンピュータプログラム製品、および/または、プロセッサ(プロセッサに接続されたメモリに格納および/またはそのメモリによって提供される命令を実行するよう構成されたプロセッサ)を含め、様々な形態で実装されうる。本明細書では、これらの実装または本発明が取りうる任意の他の形態を、技術と呼ぶ。一般に、開示された処理の工程の順序は、本発明の範囲内で変更されてもよい。特に言及しない限り、タスクを実行するよう構成されるものとして記載されたプロセッサまたはメモリなどの構成要素は、ある時間にタスクを実行するよう一時的に構成された一般的な構成要素として、または、タスクを実行するよう製造された特定の構成要素として実装されてよい。本明細書では、「プロセッサ」という用語は、1または複数のデバイス、回路、および/または、コンピュータプログラム命令などのデータを処理するよう構成された処理コアを指すものとする。
以下では、本発明の原理を示す図面を参照しつつ、本発明の1または複数の実施形態の詳細な説明を行う。本発明は、かかる実施形態に関連して説明されているが、どの実施形態にも限定されない。本発明の範囲は、特許請求の範囲によってのみ限定されるものであり、多くの代替物、変形物、および、等価物を含む。以下の説明では、本発明の完全な理解を提供するために、多くの具体的な詳細事項が記載されている。これらの詳細事項は、例示を目的としたものであり、本発明は、これらの具体的な詳細事項の一部または全てがなくとも特許請求の範囲に従って実施可能である。簡単のために、本発明に関連する技術分野で周知の技術要素については、本発明が必要以上にわかりにくくならないように、詳細には説明していない。
複数の粒度のセグメントにテキストを分割することが開示されている。いくつかの実施形態において、単語分割辞書(例えば、最小意味単位の辞書)が構築される。最小意味単位の辞書内のエントリは、合理的な長さを有し、意味的な完全性も有する。さらに、それらのエントリに対応する検索要素が辞書に格納される。所与のエントリが単語分割を受ける時、中間粒度の分割結果を得るために、構築された最小意味単位の辞書に基づいて単語分割を受ける。中間粒度の分割結果は、より粗粒度のエントリを含む単語分割辞書を用いて結合され、それによって、より粗粒度の分割結果が得られる。最小意味単位の辞書に格納されたエントリに対応する検索要素を用いて、より細粒度の分割結果が、中間粒度の分割結果に基づいて取得される。いくつかの実施形態において、テキストは、中国語など、単語区切り記号のない言語である。
図2は、テキストを分割し、複数の粒度の分割結果を提供するためのシステムの一実施形態を示す。明らかに、フォームデザインのためのコンテキスト依存のスクリプト編集を実行するために、他のコンピュータシステムアーキテクチャおよび構成が用いられてもよい。以下に述べるような様々なサブシステムを備えるコンピュータシステム100は、少なくとも1つのマイクロプロセッササブシステム(プロセッサまたは中央処理装置(CPU)とも呼ばれる)102を備える。例えば、プロセッサ102は、シングルチッププロセッサまたはマルチプロセッサによって実装できる。いくつかの実施形態において、プロセッサ102は、コンピュータシステム100の動作を制御する汎用デジタルプロセッサである。メモリ110から読み出された命令を用いて、プロセッサ102は、入力データの受信および操作、ならびに、出力デバイス(例えば、ディスプレイ118)上でのデータの出力および表示を制御する。いくつかの実施形態において、プロセッサ102は、テキストを分割し、複数の粒度の分割結果を提供することを含む、および/または、そのために用いられる。
プロセッサ102は、メモリ110と双方向的に接続されており、メモリ110は、第1のプライマリストレージ(通例は、ランダムアクセスメモリ(RAM))および第2のプライマリストレージ領域(通例は、読み出し専用メモリ(ROM))を含みうる。当業者に周知のように、プライマリストレージは、一般的な記憶領域として、および、スクラッチパッドメモリとして利用可能であり、また、入力データおよび処理済みデータを格納するために利用可能である。プライマリストレージは、さらに、プロセッサ102上で実行される処理のための他のデータおよび命令に加えて、データオブジェクトおよびテキストオブジェクトの形態で、プログラミング命令およびデータを格納できる。また、当業者に周知のように、プライマリストレージは、通例、機能(例えば、プログラムされた命令)を実行するためにプロセッサ102によって用いられる基本的な動作命令、プログラムコード、データ、および、オブジェクトを備える。例えば、メモリ110は、例えば、データアクセスが双方向である必要があるか、単方向である必要があるかに応じて、後述する任意の適切なコンピュータ読み取り可能な記憶媒体を含みうる。例えば、プロセッサ102は、頻繁に必要になるデータをキャッシュメモリ(図示せず)に直接的かつ非常に迅速に格納し取り出すことができる。
着脱可能なマスストレージデバイス112が、コンピュータシステム100にさらなるデータ記憶容量を提供しており、プロセッサ102に対して双方向(読み出し/書き込み)または単方向(読み出しのみ)に接続されている。例えば、ストレージ112は、磁気テープ、フラッシュメモリ、PCカード、携帯型マスストレージデバイス、ホログラフィックストレージデバイス、および、その他のストレージデバイスなどのコンピュータ読み取り可能な媒体も含みうる。固定マスストレージ120も、例えば、さらなるデータ記憶容量を提供しうる。マスストレージ120の最も一般的な例は、ハードディスクドライブである。マスストレージ112および120は、一般に、プロセッサ102によって通例はあまり利用されないさらなるプログラミング命令、データなどを格納する。当然のことながら、マスストレージ112および120に保持された情報は、必要であれば、仮想メモリとしてのメモリ110(例えば、RAM)の一部に標準的な方式で組み込まれてよい。
プロセッサ102がストレージサブシステムにアクセスできるようにすることに加えて、バス114は、その他のサブシステムおよびデバイスへのアクセスを可能にするために用いられてもよい。図に示すように、これらは、ディスプレイモニタ118、ネットワークインターフェース116、キーボード104、および、ポインティングデバイス106、ならびに、必要に応じて、補助入力/出力デバイスインターフェース、サウンドカード、スピーカ、および、その他のサブシステムを含みうる。例えば、ポインティングデバイス106は、マウス、スタイラス、トラックボール、または、タブレットであってよく、グラフィカルユーザインターフェースと相互作用するのに有用である。
ネットワークインターフェース116は、図に示すように、ネットワーク接続を用いて、別のコンピュータ、コンピュータネットワーク、または、遠隔通信ネットワークにプロセッサ102を接続することを可能にする。例えば、ネットワークインターフェース116を通して、プロセッサ102は、方法/処理ステップを実行する過程で、別のネットワークから情報(例えば、データオブジェクトまたはプログラム命令)を受信したり、別のネットワークに情報を出力したりすることができる。情報は、プロセッサ上で実行される一連の命令として表されることが多く、別のネットワークから受信されたり、別のネットワークへ出力されたりしうる。インターフェースカード(または同様のデバイス)と、プロセッサ102によって実装(例えば、実行/実施)される適切なソフトウェアとを用いて、コンピュータシステム100を外部ネットワークに接続し、標準プロトコルに従ってデータを転送することができる。例えば、本明細書に開示された様々な処理の実施形態は、プロセッサ102上で実行されてもよいし、処理の一部を共有するリモートプロセッサと共に、ネットワーク(インターネット、イントラネットワーク、または、ローカルエリアネットワークなど)上で実行されてもよい。さらなるマスストレージデバイス(図示せず)が、ネットワークインターフェース116を通してプロセッサ102に接続されてもよい。
補助I/Oデバイスインターフェース(図示せず)が、コンピュータシステム100と共に用いられてよい。補助I/Oデバイスインターフェースは、プロセッサ102がデータを送信すること、ならびに、より典型的には、他のデバイス(マイクロホン、タッチセンサ方式ディスプレイ、トランスデューサカードリーダ、テープリーダ、音声または手書き認識装置、バイオメトリクスリーダ、カメラ、携帯型マスストレージデバイス、および、他のコンピュータなど)からデータを受信することを可能にする汎用インターフェースおよびカスタマイズされたインターフェースを含みうる。
さらに、本明細書に開示された様々な実施形態は、さらに、様々なコンピュータ実装された動作を実行するためのプログラムコードを備えたコンピュータ読み取り可能な媒体を含むコンピュータストレージ製品に関する。コンピュータ読み取り可能な媒体は、データを格納できる任意のデータストレージデバイスであり、そのデータは、後にコンピュータシステムによって読み出されうる。コンピュータ読み取り可能な媒体の例は、以下の媒体すべてを含むがそれらに限定されない。ハードディスク、フロッピーディスク、および、磁気テープなどの磁気媒体、CD−ROMディスクなどの光学媒体、光学ディスクなどの磁気光学媒体、ならびに、特定用途向け集積回路(ASIC)、プログラム可能論理デバイス(PLD)、および、ROM/RAMデバイスなど、特別に構成されたハードウェアデバイス。プログラムコードの例としては、例えば、コンパイラによって生成されるマシンコード、または、インタープリタを用いて実行できる高水準コード(例えば、スクリプト)を含むファイルが挙げられる。
図2に示したコンピュータシステムは、本明細書に開示された様々な実施形態と共に利用するのに適切なコンピュータシステムの一例にすぎない。かかる利用に適した他のコンピュータシステムは、より多いまたは少ないサブシステムを含みうる。さらに、バス114は、サブシステムをリンクさせるよう機能する任意の相互接続スキームの例である。異なる構成のサブシステムを有する他のコンピュータアーキテクチャが利用されてもよい。
図3は、単語分割辞書、特に、最小意味単位の辞書を構築するための処理の一実施形態を示すフローチャートである。処理200は、システム(100など)上で実行されてよい。
工程201では、訓練セットに基づいて訓練される分類子が取得される。いくつかの実施形態において、訓練セットは、多くのサンプルエントリを含んでおり、訓練セット内の各訓練サンプルエントリは、単語長属性、単独利用率、句構造規則属性、意味属性、重複属性、および、分類結果を含む。
単語長属性の属性値は、訓練サンプルエントリ内のテキストの文字数を含む。
句構造属性の値は、訓練サンプルエントリの細粒度の単語の単独利用率値と、訓練サンプルエントリが句構造規則に従っているか否かを示すインジケータとを含む。
句の単独利用率の値は、(例えば、ログエントリ、アンカーテキストなどから取得された単独句など)単独句のセット内での出現頻度または出現回数を単位として測られてよい。
いくつかの実施形態において、システムは、様々なカテゴリの列挙エントリの所定のセット(例えば、TV番組、本のタイトル、商品ブランドなどの列挙エントリのセット)を提供する。意味属性の値は、サンプルエントリが列挙エントリのセットに含まれるか否かに依存する。言い換えると、意味属性値は、列挙エントリのセットにおける訓練サンプルエントリの包含状態を示す。訓練サンプルエントリが列挙エントリの所定のセットに含まれる場合、意味属性の値は、列挙エントリの対応する所定のセットのための識別子である。訓練サンプルエントリが、列挙エントリの所定のセットのいずれにも見いだされない場合、意味属性の値には、列挙エントリの任意の所定のセットの識別子とは異なる識別子が割り当てられる。
重複属性の値は、訓練サンプルエントリが様々なカテゴリの列挙エントリのいずれか内の別のエントリと重複する確率と、重複部分が細粒度の単語であるか否かを示すインジケータとを含む。
分類結果は、予め格付けされた訓練サンプルエントリが、複合意味単位であるか最小意味単位であるかを示すインジケータを含む。本明細書で用いられているように、複合意味単位とは、意味論的に意味を持つ(例えば、人間に理解可能な)部分にさらに分割できるテキストの一部のことであり、最小意味単位とは、意味を持つ部分にさらに分割できないテキストのことである。
例えば、訓練サンプルエントリ「C2管理」(企業管理)は、4文字である。したがって、この訓練サンプルエントリの単語長の値(すなわち、文字数)は4である。訓練サンプルエントリ「C2管理」(企業管理)は、細粒度の単語「C2」(企業)および「管理」(管理)を含む。これら2つの細粒度の単語が単独利用エントリのセットに現れる率が決定され、最も高い率が、訓練サンプルエントリ「C2管理」(企業管理)の句構造属性の値に対する細粒度の単語の単独利用率として機能するよう選択される。本明細書で用いられているように、単独利用エントリセットは、インターネットクエリログ、アンカーテキスト、または、任意の他の適切な技術によって取得されてよい。例えば、単独利用エントリセットを構築するための収集段階中に、ユーザが検索キーワード「C2」(企業)をインターネット検索エンジンに入力した場合、「C2」(企業)はクエリログに記録され、「C2」(企業)が単独で利用されうることが示される。さらに、カンマまたはスペースなどの区切りマーカによって分離されたユーザによって入力された各単語は、単独で利用された単語と見なすことができる。1,000,000件の事例で、細粒度の単語「管理」(管理)が単独利用エントリセット内で最も頻繁に出現すると仮定する。一方で、エントリが独立した細粒度の単語を欠いている(例えば、その単語が他の単語から独立して検索エンジンに入力されたことがない)場合、率は0である。
句構造規則は、所与の言語の構文を記述する方法である。規則は、一般的に、自然言語に関する幅広い研究を通して得られる。中国語の場合、句は、一般に、「形容詞+名詞」、「名詞+名詞」、または、「動詞+名詞」で構成される。句構造規則は、正規表現の形態で格納されうる。訓練サンプルエントリ「C2管理」(企業管理)は、2つの細粒度の名詞で構成されている。「C2」(企業)および「管理」(管理)である。したがって、訓練サンプルエントリ「C2管理」(企業管理)は、句構造規則に従っている。句構造規則に従っていることを示すインジケータが1に設定され、句構造規則に従っていないことを示すインジケータが0であると仮定する。したがって、訓練サンプルエントリ「信息C9工程」(情報システム工学)の句構造属性の値は、(1,000,000,1)である。
いくつかの実施形態において、システムは、様々なカテゴリの列挙エントリの所定のセット(例えば、映画のタイトル、本のタイトル、商品ブランドなどの列挙エントリのセット)を提供する。意味属性の値は、サンプルエントリが列挙エントリのセットに含まれるか否かに依存する。例えば、TV/映画のタイトルのセットのための識別子をS21とする。映画のタイトルのカテゴリに含まれるエントリは、S21={ゴッドファーザー,シュレック,甲方乙方...}である。小説のタイトルのセットのための識別子はS22である。小説のタイトルのセットに含まれるエントリは、S22={ホビット,二都物語,紅楼夢,...}である。教科書の題材のセットのための識別子はS23である。教科書の題材のセットに含まれるエントリは、S23={情報工学,心理学,哲学,企業管理,産業,および,商業管理,...}である。都市名のセットのための識別子はS24であり、エントリは、S24={北京,上海,ニューヨーク,フフホト,...}を含む。訓練サンプルエントリ「C2管理」(企業管理)は、教科書の題材のセットに含まれる。したがって、訓練サンプルエントリ「C2管理」(企業管理)に対応する識別子は、S23である。訓練サンプルエントリがいずれのタイプの列挙エントリセットにも含まれない場合、この訓練サンプルエントリの句構造値は、どのタイプの列挙エントリセットのための識別子とも異なる識別子、例えば、どの列挙エントリセットにも対応しないS20になる。
重複属性の値を決定するために、訓練サンプル単語が、辞書に含まれる別のエントリと、訓練テキスト内で重複する確率が計算される。本明細書で用いられているように、重複とは、訓練サンプルエントリ内のいくつかの文字が、訓練サンプルエントリを含む訓練テキスト内で前または後ろに位置するいくつかの文字と組み合わされた時に、辞書内の別のエントリを形成する状況を指す。例えば、訓練サンプルエントリが「C2管理」(企業管理)であり、訓練テキストが「・・・C10,C2管理科学C11・・・」(周知の通り、企業管理科学は新たな主題である・・・)を含むと仮定する。ここで、「C2管理」(企業管理)および「管理科学」(管理科学)は、重複するテキスト「管理」(管理)を有する。2つの単語が重複する時、重複部分は、この例における「管理」(管理)のように、意味論的に意味を持つ粒度の細かい単語でありうる。一部の例では、重複は、単一の文字であってもよい。例えば、「甲方乙方」(First Party Second Party(中国映画))および「方才」(たった今)は、文脈を拡張された訓練テキスト「・・・甲方乙方才上映・・・」(・・・First Party Second Party、たった今劇場公開・・・)内で重複する。「甲方乙方」(First Party Second Party)における細粒度の単語は、「甲方/乙方」(First Party/Second Party)であり、重複部分は、文字「方」(「当事者」または「ちょうど」、文脈による)であり、「甲方乙方」(First Party Second Party)の意味論的に意味を持つ細粒度の単語ではない。したがって、訓練サンプルエントリが訓練テキストに出現した時にその訓練サンプルエントリが辞書内の別のエントリと重複する確率が計算される。重複部分が細粒度の単語である場合、対応するインジケータは1に設定されてよく、そうでない場合、インジケータは0に設定されてよい。この実施形態において、訓練サンプルエントリ「C2管理」(企業管理)が他のエントリと重複する確率が2%であり、単語「管理」(管理)と重複する部分が、粒度の細かい単語であると仮定する。この場合、訓練サンプルエントリ「C2管理」(企業管理)の重複値は、(2%,1)である。
この例において、訓練サンプルエントリ「C2管理」(企業管理)は、複合意味要素に分類される。ここで、訓練サンプルエントリ「C2管理」(企業管理)、「フフホト」などの値および分類結果を、表1に示す。
Figure 0005788015
表1に示された訓練セット内のすべての訓練サンプルエントリの属性値および格付け分類結果に基づいて、GBDT(勾配ブースト決定木)、最大エントロピ、サポートベクターマシン(SVM)、または、分類子を訓練するための任意のその他の最適な技術などの機械学習技術が用いられてよい。本実施形態における分類子は、訓練セット内のエントリの単語長属性値、句構造属性値、意味属性値、および、重複属性値に少なくとも部分的に基づいて確立される。分類子は、分類されるエントリが、複合意味単位であるか最小意味単位であるかを判定するために用いられる。一般に、より大きい単語長属性値と、第1の要素の値が比較的高く、従来の句構造規則に従うエントリに適合する句構造属性とを有するエントリは、分類子によって複合意味単位であると判定される可能性が高い。小さい単語長属性値と、第1の要素の値が比較的低く、従来の句構造規則に従うエントリに適合しない句構造属性とを有するエントリは、分類子によって最小意味単位であると判定される可能性が高い。
分類子の訓練に用いられる機械学習技術は、当業者に周知である。例えば、決定木学習技術は、ソースセットを属性値テストに基づいてサブセットに分割し、再帰的に各派生サブセットに処理を繰り返すことによって、入力変数(例えば、文字数、単独利用率、句構造規則値、意味属性値、および、重複属性値)に基づいて目標変数(例えば、分類結果)の値を予測するためのモデルを構築する。サポートベクターマシン技術は、N個のクラスの1つに属するものとして訓練セットエントリをマークし、所与の各入力値について、その入力値を含む可能性のあるクラスを予測するモデルを構築する。
工程202では、分類対象のエントリが受信される。エントリは、既存の単語分割辞書、データベース、インターネットなど、様々なソースから受信されうる。
この例において、分類対象のエントリは、「五大C12」(五大連池、中国の観光地)、「菊花茶」(菊花茶)、および、「C3管」(ステンレス鋼管)である。
工程203では、分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値が取得される。
分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値を決定する処理は、訓練セット内の訓練サンプルエントリについて上述の4つの属性の属性値を決定するために工程201において用いられたアプローチと同様である。分類対象のエントリの例の属性値情報を表2に示す。
Figure 0005788015
工程204では、分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値が、分類対象のエントリの分類結果を取得するために、分類子に入力される。
この例における「五大C12」(五大連池)、「菊花茶」(菊花茶)、および、「C3管」(ステンレス鋼管)の分類結果は、最小意味単位に対応する。「C13」(ノートブックコンピュータバッグ)および「C14」(ミニセダン)の分類結果は、複合意味単位に対応する。複合意味単位の粒度は、最小意味単位の粒度よりも大きい。
工程205では、分類対象の各エントリの分類結果に基づいて、エントリが最小意味単位か否かが判定される。エントリが最小意味単位でない場合、処理は工程207に進み、ここで、分類対象のエントリは複合意味単位の辞書に追加される。しかしながら、エントリが最小意味単位である場合、処理は工程206に進み、ここで、分類対象のエントリは最小意味単位の辞書に追加される。
この例では、「五大C12」(五大連池)、「菊花茶」(菊花茶)、および、「C3管」(ステンレス鋼管)が最小意味単位の辞書に追加される。「C13」(ノートブックコンピュータバッグ)および「C14」(ミニセダン)は、複合意味単位の辞書に追加される。
最小意味単位の辞書および複合意味単位の辞書は、いくつかの実施形態において、細粒度単語のセグメント列(例えば、最小意味単位を含む列)を、より粗粒度の単語のセグメント列に変換するために用いられる。例えば、テキストは、最初に、最小意味単位の辞書に従って、最小意味単位を含むセグメント列に分割される(換言すると、列内のセグメントは、最小意味単位の辞書に見いだされる)。複合意味単位の辞書に基づいて、この最初の列内のセグメントは、複合意味単位の辞書に見いだされる粗粒度のセグメントを形成するように結合される。
工程208では、分類対象のエントリの分割モードと、エントリに対応する検索要素が、決定されて格納される。分割モードは2つのタイプを含む。分割可能および分割不可能である。エントリが分割可能であるか分割不可能であるかは、以下の2つの基準に基づいて判定される。(1)固有名詞であるか?これは、固有名詞データベースでエントリを検索することによって判定できる。固有名詞である場合、さらなる分割は不可能であり、分割不可能となる。「五大C12」(五大連池)が一例である。(2)意味論的にさらに分割できるか?「黄金周」(ゴールデンウィーク)または「大哥大」(ダゲダ、携帯電話の中国語の俗語)のように、エントリが定型表現(例えば、全体として具体的な意味を持つ表現)である場合、分割不可能である。エントリが分割可能であるか否かは、固有名詞および定型表現の所定のデータベース内でエントリを検索することによって判定できる。固有名詞でも定型表現でもないエントリは、分割可能である。例えば、「C15」(保湿化粧水)および「菊花茶」(菊花茶)は、固有名詞でも定型表現でもないので、分割可能である。
分類対象のエントリの分割モードが分割可能である場合、分類対象のエントリに対応する検索要素は、分類対象のエントリ内に含まれる細粒度の単語である。分類対象のエントリの分割モードが分割不可能である場合、分類対象のエントリに対応する検索要素は、分類対象のエントリ自体である。
最小意味単位の辞書内のエントリのデータ構造例を表3に示す。
Figure 0005788015
処理200は、既存の単語分割辞書内のエントリ(または、他の手段によって取得されたエントリ)を取得して、最小意味単位の辞書または複合意味単位の辞書のために分類するものとしても理解されうる。
上述のスキームによって決定された最小意味単位の辞書が含むエントリは、一般に、既存の粗粒度の単語分割辞書よりも短くて数が少ないため、単語分割辞書に基づく分割に必要な時間と、単語分割の曖昧性の可能性が低減される。したがって、単語分割処理の精度が向上し、辞書の維持の困難さが減少する。
図4は、最小意味単位の辞書および複合意味単位の辞書に基づいて、複数の粒度の分割結果を取得する処理の一実施形態を示すフローチャートである。
工程301では、受信されたテキストに対して分割が実行される。分割は、所与のテキストについて最小意味単位の辞書に基づいて実行される。単語分割を通して取得されたセグメント列は、分割結果の中間セットと見なされる(中間粒度の分割結果ともいう)。分割された列の中のセグメントは、最小意味単位を含む。次いで、処理は、同時に工程302および工程303に進む。
いくつかの実施形態において、所与のテキストは、最小意味単位の辞書内のエントリとマッチングされ、既存の曖昧性除去モデルを用いて、生じうる任意の分割の曖昧性問題が解決される。例えば、所与のテキストが「本C3管用C5C6C7」(このステンレス鋼管は1級鋼を用いて鋳造されている)であり、辞書クエリが、最小意味単位の辞書に基づいて左から右へと実行されるとする。セグメント内の文字の最大数が6であると仮定すると、所与のテキスト「本C3管用」(このステンレス鋼管用いる)の最も左にある文字から始まる最初の6文字が、最小意味単位の辞書に見いだされうるか否かを判定するために評価される。言い換えると、6文字の処理窓が、処理対象の文字列を抽出するために用いられる。それらの文字が最小意味単位の辞書に見いだされた場合、これらの6文字からなるセグメントは、第1の単語分割列に記録される。見いだされなかった場合、最も右側の文字が削除され、残りの5文字「本C3管」(このステンレス鋼管)を含むセグメントが再び比較される。この処理は、すべての文字が処理されるか、最小意味単位が見いだされるまで、残りの文字に対して繰り返される。この例では、文字列「本C3管用」(このステンレス鋼管用いる)について、マッチする最小意味単位が見いだされない。
すべての6文字が処理された後、窓は1文字分移動し、処理は次の6文字「C3管用一」(ステンレス鋼管用いる1)について繰り返される。それらの文字が最小意味単位の辞書に見いだされるか否かを判定するために、評価が行われる。見いだされた場合、これら6文字のセグメントは、第1の単語分割列に記録される。見いだされなかった場合、最も右側の文字が削除され、残りの5文字「C3管用」(ステンレス鋼管用いる)が再び比較され、この処理が残りの文字に対して繰り返される。この反復において、最小意味単位「C3」(ステンレス鋼)が特定される。
窓の移動および処理の反復を繰り返すことによって、所与のテキストに含まれるすべての最小意味単位が取得される。特定された最小意味単位は、複数のセグメント列(複数の単語分割経路)を構成して、曖昧性を生じうる。いくつかの実施形態において、単語分割の曖昧性が生じた場合、複数の列から1つのセグメント列が、条件付き確率場(CRF)モデル、隠れマルコフモデル(HMM)、最大エントロピ(ME)モデルなどの曖昧性除去モデルに基づいて選択される。当業者に周知のように、これらの曖昧性除去モデルは、統計的情報学習を用いたコーパス分析に基づいており、ここで、単語分割は様々な文脈素性に従って実行される。セグメント列「本−C3管−用−C5−C6−C7」(この−ステンレス鋼管−用いる−1級−鋼−鋳造)が得られるまで、このように処理が続けられる。
最小粒度の単語分割から取得されたセグメント列は、「本−C3−管−用−C5−C6−C7」(この−ステンレス鋼−管−用いる−1級−鋼−鋳造)である。既存の下から上への動的結合スキームは、意味項目「C6管」(鋼管)を含まない「本−C3−管用−C5−C6−C7」(この−ステンレス鋼−有用−1級−鋼−鋳造)を生成しうる。したがって、分割の曖昧性があり、後の検索の際に精度が低くなる。さらに、失われた用語があるため、「C6管」(鋼管)に関連する文書が見つからず、検索の再現率も減少する。対照的に、本願は、最小の単語粒度ではなく最小意味単位に基づいて単語分割を実行することにより、分割の曖昧性の可能性を低減し、上述の問題をより効果的に解決する。
別の例として、所与のテキストが、「C2管理科学C8」(企業管理科学技術)であるとする。最小意味単位の辞書に従って単語分割から取得されるセグメント列は、「C2−管理−科学−C8」(企業−管理−科学−技術)である。既存の下から上への動的結合スキーム(例えば、既存の最大粒度単語分割スキーム)に従った場合、最大粒度単語分割を行った際に、「C2管理」(企業管理)および「管理科学」(管理科学)の間、「管理科学」(管理科学)および「科学C8」(科学技術)の間、ならびに、「管理」(管理)および「理科」(科学)の間に、分割の曖昧性の問題が生じる。最大粒度に基づいた単語分割は、大量のエントリを必要とし、その結果、大量の不必要な分割の曖昧性が生じ、分割の精度が下がる。最小意味単位の中のエントリの方が、連結修正語(combination modifier)を有する可能性が低い。したがって、最小意味単位に基づいた単語分割は、分割の精度を高めうる。
工程302では、最小意味単位よりも大きい粒度を有する単語分割辞書(例えば、処理200を用いて得られた複合意味単位の辞書)に基づいて、曖昧性除去モデルを用いて、中間粒度の分割結果内のセグメントが結合され、第1の粒度の分割結果が取得される。第1の粒度の分割結果は、中間粒度の分割結果よりも粗い粒度(すなわち、大きい粒度)であることから、粗粒度の分割結果とも呼ばれる。
「C2−管理−科学−C8」(企業−管理−科学−技術)という中間粒度の分割結果を例として、より大きい粒度を有する単語分割辞書がエントリ「C2管理」(企業理)および「科学C8」(科学技術)を含むと仮定する。したがって、列「C2−管理−科学−C8」(企業−管理−科学−技術)内のセグメントは、より粗粒度のセグメントに結合されて、「C2管理−科学C8」(企業管理−科学技術)という結合後のより粗粒度の分割結果を形成しうる。
工程303では、単語分割ツリー構造が任意選択的に形成される。ここで、所与のテキストが、ルートノードを形成するために用いられ、工程301において取得された中間粒度の分割結果内の各セグメントが、ルートノードのサブノードを形成するために用いられる。左から右へ順番に、セグメントに対応する各ノードがルートノードに追加される。図5は、単語分割ツリー構造の一例を示す図である。この例では、ノード552がルートノード(所与のテキスト)に対応し、ノード554がサブノード(中間の粒度の分割結果)に対応する。
図4に戻ると、工程304では、中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素が、最小意味単位の辞書内で検索される。処理200に関連して上述したように、セグメントおよびそれらに対応する検索要素は、最小意味単位の辞書に格納される。一例として表3を参照すると、所与のテキスト「本C3管用C5C6C7」(このステンレス鋼管は1級鋼を用いて鋳造されている)について、中間粒度の分割結果は「本−C3管−用−C5−C6−C7」(この−ステンレス鋼管−用いる−1級−鋼−鋳造)である。例えば、セグメント「C3管」(ステンレス鋼管)に対応する検索要素は、「C3」(ステンレス鋼)および「C6管」(鋼管)である。
工程305では、エントリに対応する検索要素は、単語分割結果ツリー内のリーフノードを形成するために用いられる。図5のツリーの例に示すように、リーフノードはノード556である。
工程306では、第2の粒度の分割結果が、検索要素に基づいて取得される。第2の粒度の分割結果は、中間粒度の分割結果よりも細かい粒度であることから、細粒度の分割結果とも呼ばれる。いくつかの実施形態において、単語分割結果ツリー内のリーフノードは、第2の粒度の分割結果と見なされる。図5のツリーの例を参照すると、所与のテキスト「本C3C6管用C5C6C7」(このステンレス鋼管は1級鋼を用いて鋳造されている)について取得されるより細粒度の分割結果は、「本−C3−C6管−用−C5−C6−C7」(この−ステンレス鋼−鋼管−用いる−1級−鋼−鋳造)である。
処理300は、処理200で構築された最小意味単位の辞書を用いて、所与のテキストに単語分割を実行し、中間粒度の分割結果を取得する。次いで、中間粒度の分割結果よりも大きい粒度を有する第1の粒度の分割結果を取得するために、最小意味単位の辞書よりも大きい粒度を有する辞書に従って、中間粒度の分割結果に対して結合が行われる。また、中間粒度の分割結果よりも粒度の細かい第2の粒度の分割結果は、最小意味単位に格納された各エントリに対応する検索要素と、中間粒度の分割結果とに基づいて取得される。このように、所与のテキストに対応する少なくとも3つの粒度の分割結果を提供することが可能であり、単語分割の粒度に関して様々なタイプのアプリケーションが要求する異なる要件を満たすことができる。したがって、従来技術の問題、すなわち、従来技術が複数の粒度の分割結果を提供した時に(意味項目が失われた結果として)再現率が低くなる問題および単語分割の精度が低くなる問題を回避することができる。
図6は、単語分割辞書を構築するためのシステムの一実施形態を示すブロック図である。システムは、処理200を実行するよう構成される。この例において、システム500は、分類子取得モジュール501、インターフェースモジュール502、属性値決定モジュール503、分類結果決定モジュール504、および、第1のエントリ追加モジュール505を備える。
分類子取得モジュール501は、訓練セットに基づいて分類子を訓練するよう構成されており、訓練セット内の各訓練サンプルエントリは、上述のように、単語長属性、句構造属性、意味属性、重複属性、および、分類結果を有する。
インターフェースモジュール502は、分類対象のエントリを受信するよう構成されている。インターフェースモジュールの例としては、ポート、ケーブル、有線または無線ネットワークインターフェースカードなどの外部接続、および、通信バスなどの内部接続が挙げられるが、これらに限定されない。
属性値決定モジュール503は、インターフェースモジュール502によって取得された分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値を決定するよう構成されている。
分類結果決定モジュール504は、分類子取得モジュール501によって取得された分類子と、属性値決定モジュール503によって決定された分類対象のエントリの単語長属性、句構造属性、意味属性、および、重複属性の属性値とに基づいて、分類対象のエントリを決定し、分類対象のエントリが最小意味単位であるか否かを判定するよう構成されている。
第1のエントリ追加モジュール505は、分類対象のエントリが分類結果決定モジュール504によって最小意味単位であると判定された場合に、最小意味単位の辞書に分類対象のエントリを追加するよう構成されている。
のデバイスは、さらに、分類対象のエントリが最小意味単位でないと分類結果決定モジュール504によって判定された場合に、複合意味単位の辞書に分類対象のエントリを追加するよう構成された第2のエントリ追加モジュール506を備えることが好ましい。
デバイスは、さらに、第1のエントリ追加モジュール505が分類対象のエントリを最小意味単位の辞書に追加した後に、分類対象のエントリの分割モードと、分類対象のエントリに対応する検索要素とを、最小意味単位の辞書に格納するための検索要素格納モジュール507を備えることが好ましい。
図7は、複数の粒度の分割結果を提供するよう構成されたシステムの一実施形態を示すブロック図である。システム600は、単語分割辞書構築モジュール601、単語分割処理モジュール602、結合モジュール603、検索モジュール604、および、決定モジュール605を備える。システムは、処理300を実行するよう構成されている。
単語分割辞書構築モジュール601は、最小意味単位の辞書を構築するよう構成されている。
単語分割処理モジュール602は、辞書構築モジュール601によって構築された最小意味単位の辞書に従って所与のテキストに単語分割を実行し、中間粒度の分割結果を取得するよう構成されている。
結合モジュール603は、最小意味単位の辞書よりも大きい粒度の辞書と、曖昧性除去モデルとに基づいて、単語分割処理モジュール602によって取得された中間粒度の分割結果を結合し、より粗粒度の分割結果を取得するよう構成されている。
検索モジュール604は、単語分割処理モジュール602によって取得された中間粒度の分割結果内の列に含まれる各セグメントに対応する検索要素を、(単語分割辞書構築モジュール601によって構築された)最小意味単位の辞書内で検索するよう構成されている。
決定モジュール605は、より細粒度の分割結果を決定するよう構成されている。
図8は、単語分割処理モジュールの一実施形態を示すブロック図である。この例において、単語分割処理モジュール700(例えば、図7の602)は、単語分割サブモジュール701、第1の決定サブモジュール702、および、第2の決定サブモジュール703を備える。
単語分割サブモジュール701は、単語分割辞書構築モジュール601によって構築された最小意味単位の辞書に基づいて所与のテキストに単語分割を実行するよう構成されている。
第1の決定サブモジュール702は、単語分割サブモジュール701による単語分割によって取得されたセグメント列が1つだけであった場合に、中間粒度の単語分割結果としてセグメント列を形成するよう構成されている。
第2の決定サブモジュール703は、単語分割サブモジュール701が複数のセグメント列を生成した場合に、曖昧性除去モデルに基づいて、中間の粒度の単語分割結果として1つのセグメント列を選択するよう構成されている。
図9は、決定モジュールの一実施形態を示すブロック図である。この例において、決定モジュール800(例えば、図7の605)は、分割結果ツリー構築サブモジュール801および決定サブモジュール802を備える。
分割結果ツリー構築サブモジュール801は、分割結果のツリーを形成するよう構成されている。いくつかの実施形態において、このモジュールは、所与のテキストを用いてルートノードを形成し、中間粒度の分割結果内の各セグメントを用いてルートノードのサブノードを形成し、セグメントに対応するノードのリーフノードとしてセグメントに対応する検索要素を用いる。
決定サブモジュール802は、分割結果ツリー構築サブモジュール801によって構築された分割結果ツリーにおける各リーフノードを順番に取得し、順番に取得されたリーフノードを、より細粒度の単語分割結果と見なすよう構成されている。
上述のモジュールは、1または複数の汎用プロセッサ上で実行されるソフトウェアコンポーネントとして、特定の機能を実行するよう設計されたプログラム可能論理デバイスおよび/または特定用途向け集積回路などのハードウェアとして、もしくは、それらの組み合わせとして実装することができる。いくつかの実施形態において、モジュールは、コンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワーク装置など)に本発明の実施形態に記載された方法を実行させるための複数の命令など、不揮発性記憶媒体(光学ディスク、フラッシュ記憶装置、携帯用ハードディスクなど)に格納することができるソフトウェア製品の形態で具現化されてよい。モジュールは、単一のデバイス上に実装されてもよいし、複数のデバイスにわたって分散されてもよい。モジュールの機能は、互いに統合されてもよいし、複数のサブモジュールにさらに分割されてもよい。
当業者であれば、適切なハードウェアにプログラムから命令させることによって、上述の実施形態の実現に関与する工程の全部または一部を実現できることを理解できる。このプログラムは、ROM/RAM、磁気ディスク、光学ディスクなどの読み取り可能な記憶媒体に格納できる。
明らかに、当業者は、本発明の精神および範囲から逸脱することなく、本願を変形および変更することができる。したがって、本願のこれらの変形例および変更例が、特許請求の範囲および等価の技術の範囲内にある場合、本願は、これらの変形例および変更例をも網羅するものである。
上述の実施形態は、理解しやすいようにいくぶん詳しく説明されているが、本発明は、提供された詳細事項に限定されるものではない。本発明を実施する多くの代替方法が存在する。開示された実施形態は、例示であり、限定を意図するものではない。
適用例1:テキスト処理の方法であって、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得し、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成すること、を備える、方法。
適用例2:適用例1に記載の方法であって、さらに、テキストを分類するための分類子を訓練し、前記訓練は、複数の訓練サンプルエントリに基づいて行われ、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書を構築し、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含むこと、を備える、方法。
適用例3:適用例1に記載の方法であって、前記受信したテキストは、単語区切り記号のない言語である、方法。
適用例4:適用例2に記載の方法であって、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加することを備える、方法。
適用例5:適用例2に記載の方法であって、前記訓練された分類子を用いた前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、方法。
適用例6:適用例2に記載の方法であって、さらに、前記エントリに対応する検索要素を決定し、前記最小意味単位の辞書に前記検索要素を保存すること、を備える、方法。
適用例7:適用例2に記載の方法であって、前記エントリに対応する検索要素の決定は、前記エントリが分割可能であるか否かを判定し、前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、方法。
適用例8:適用例1に記載の方法であって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、前記中間粒度の分割結果の曖昧性を解決することを含む、方法。
適用例9: テキスト処理のためのシステムであって、1または複数のプロセッサであって、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得し、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成するよう構成されている1または複数のプロセッサと、前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、を備える、システム。
適用例10:適用例9に記載のシステムであって、前記1または複数のプロセッサは、さらに、複数の訓練サンプルエントリに基づいて、テキストを分類するための分類子を訓練し、前記最小意味単位の辞書を構築するよう構成され、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含む、システム。
適用例11:適用例9に記載のシステムであって、前記テキストは、単語区切り記号のない言語である、システム。
適用例12:適用例10に記載のシステムであって、前記1または複数のプロセッサは、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加するよう構成されている、システム。
適用例13:適用例10に記載のシステムであって、前記訓練された分類子を用いた、前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、システム。
適用例14:適用例10に記載のシステムであって、前記1または複数のプロセッサは、さらに、前記エントリに対応する検索要素を決定しと、前記最小意味単位の辞書に前記検索要素を保存するよう構成されている、システム。
適用例15:適用例10に記載のシステムであって、前記エントリに対応する検索要素の決定は、前記エントリが分割可能であるか否かを判定し、前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、システム。
適用例16:適用例9に記載のシステムであって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、前記中間粒度の分割結果の曖昧性を解決することを含む、システム。
適用例17: テキスト処理ためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、コンピュータ読み取り可能な記憶媒体内に具現化され、最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得するためのコンピュータ命令と、前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得するためのコンピュータ命令と、前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索するためのコンピュータ命令と、前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果を形成するためのコンピュータ命令と、を備える、コンピュータプログラム製品。
適用例18:適用例17に記載のコンピュータプログラム製品であって、さらに、複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練するためのコンピュータ命令と、前記最小意味単位の辞書を構築するためのコンピュータ命令とを備え、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、前記最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加すること、を含む、コンピュータプログラム製品。
適用例19: テキスト処理のためのシステムであって、1または複数のプロセッサであって、複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練し、最小意味単位の辞書を構築するよう構成されている、1または複数のプロセッサと、前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、文字数と、単独利用率と、前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、最小意味単位の辞書の構築は、分類対象のエントリを受信し、前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含み、前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、を備える、システム。


Figure 0005788015

Claims (17)

  1. コンピュータによって実行される、テキスト処理の方法であって、
    最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することであって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
    前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、
    単語分割ツリー構造を形成し、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
    前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、
    対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成し、
    前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノード取得すること、
    を備える、方法。
  2. 請求項1に記載の方法であって、さらに、
    テキストを分類するための分類子を訓練し、
    前記訓練は、複数の訓練サンプルエントリに基づいて行われ、
    前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
    文字数と、
    単独利用率と、
    前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
    列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
    前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
    前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
    前記最小意味単位の辞書を構築し、
    前記最小意味単位の辞書の構築は、
    分類対象のエントリを受信し、
    前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
    前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加することを含むこと、
    を備える、方法。
  3. 請求項1に記載の方法であって、前記受信したテキストは、単語区切り記号のない言語である、方法。
  4. 請求項2に記載の方法であって、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加することを備える、方法。
  5. 請求項2に記載の方法であって、前記訓練された分類子を用いた前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、方法。
  6. 請求項に記載の方法であって、前記エントリに対応する検索要素の決定は、
    前記エントリが固有名詞であるか否かおよび意味的にさらに分割可能であるか否かに基づいて前記エントリが分割可能であるか否かを判定し、
    前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、
    前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、方法。
  7. 請求項1に記載の方法であって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、曖昧性除去モデルに基づいて前記中間粒度の分割結果の曖昧性を解決することを含む、方法。
  8. テキスト処理のためのシステムであって、
    1または複数のプロセッサであって、
    最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することであって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
    前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得し、
    単語分割ツリー構造を形成し、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
    前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索し、
    対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成し、
    前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノード取得するよう構成されている1または複数のプロセッサと、
    前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、
    を備える、システム。
  9. 請求項に記載のシステムであって、前記1または複数のプロセッサは、さらに、
    複数の訓練サンプルエントリに基づいて、テキストを分類するための分類子を訓練し、
    前記最小意味単位の辞書を構築するよう構成され、
    前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
    文字数と、
    単独利用率と、
    前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
    列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
    前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
    前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
    前記最小意味単位の辞書の構築は、
    分類対象のエントリを受信し、
    前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
    前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加することを含む、
    システム。
  10. 請求項に記載のシステムであって、前記テキストは、単語区切り記号のない言語である、システム。
  11. 請求項に記載のシステムであって、前記1または複数のプロセッサは、さらに、前記エントリが複合意味単位であると判定された場合に、複合意味単位の辞書に前記エントリを追加するよう構成されている、システム。
  12. 請求項に記載のシステムであって、前記訓練された分類子を用いた、前記エントリが最小意味単位であるか複合意味単位であるかの判定は、前記エントリの文字数、前記エントリの単独利用率、前記エントリが句構造規則に従うか否かを示す句構造規則インジケータ、前記列挙エントリの所定のセットにおける前記エントリの包含状態を示す意味属性、および、前記エントリの重複属性を、前記訓練された分類子に入力することを含む、システム。
  13. 請求項に記載のシステムであって、前記エントリに対応する検索要素の決定は、
    前記エントリが固有名詞であるか否かおよび意味的にさらに分割可能であるか否かに基づいて前記エントリが分割可能であるか否かを判定し、
    前記エントリが分割可能である場合、前記エントリに含まれる細粒度の単語に前記検索要素を設定し、
    前記エントリが分割不可能である場合、前記エントリに前記検索要素を設定すること、を含む、システム。
  14. 請求項に記載のシステムであって、前記最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得することは、曖昧性除去モデルに基づいて前記中間粒度の分割結果の曖昧性を解決することを含む、システム。
  15. テキスト処理ためのコンピュータプログラムであって、
    最小意味単位の辞書に基づいて、受信したテキストを分割して、中間粒度の分割結果を取得するための機能であって、前記受信したテキストの少なくとも一部に対して実行された辞書クエリに基づいてセグメントを取得することを備え、前記辞書クエリは前記最小意味単位の辞書に基づいて実行され、前記最小意味単位は意味を持つ部分にさらに分割できないテキストであり、
    前記中間粒度の分割結果を結合して、前記中間粒度の分割結果よりも粗い粒度を有する粗粒度の分割結果を取得するための機能と、
    単語分割ツリー構造を形成するための機能と、前記単語分割ツリー構造のルートノードを形成するために前記受信されたテキストが用いられ、前記中間粒度の分割結果内の前記セグメントは前記ルートノードのサブノードを形成するために用いられ、
    前記中間粒度の分割結果内のセグメントに対応するそれぞれの検索要素を前記最小意味単位の辞書内で検索するための機能と、
    対応する検索要素に少なくとも一部基づいて前記単語分割ツリー構造におけるリーフノードを形成するための機能と、
    前記それぞれの検索要素に基づいて、前記中間粒度の分割結果よりも細かい粒度を有する細粒度の分割結果として前記リーフノード取得するための機能と、
    をコンピュータによって実現させるコンピュータプログラム。
  16. 請求項15に記載のコンピュータプログラムであって、さらに、
    複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練するための機能と、
    前記最小意味単位の辞書を構築するための機能とをコンピュータによって実現させ、
    前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
    文字数と、
    単独利用率と、
    前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
    列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
    前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
    前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
    前記最小意味単位の辞書の構築は、
    分類対象のエントリを受信し、
    前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
    前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリおよび対応する検索要素を追加すること、を含む、コンピュータプログラム。
  17. テキスト処理のためのシステムであって、
    1または複数のプロセッサであって、
    複数の訓練サンプルエントリに基づいて行われる、テキストを分類するための分類子を訓練し、
    最小意味単位の辞書を構築するよう構成されている、1または複数のプロセッサと
    前記複数の訓練サンプルエントリ内の訓練サンプルエントリは、
    文字数と、
    単独利用率と、
    前記訓練サンプルエントリが句構造規則に従うか否かを示す句構造規則値と、
    列挙エントリの所定のセットにおける前記訓練サンプルエントリの包含状態を示す意味属性値と、
    前記列挙エントリの所定のセット内の別のエントリと前記訓練サンプルエントリとの重複を示す重複属性値と、
    前記訓練サンプルエントリが複合意味単位であるか最小意味単位であるかを示す分類結果と、を含み、
    最小意味単位の辞書の構築は、
    分類対象のエントリを受信し、
    前記訓練された分類子を用いて、分類対象の前記エントリが最小意味単位であるか複合意味単位であるかを判定し、
    前記エントリが最小意味単位であると判定された場合に、前記最小意味単位の辞書に前記エントリを追加することを含み、
    前記1または複数のプロセッサに接続され、前記1または複数のプロセッサに命令を提供するよう構成されている1または複数のメモリと、
    を備える、システム。
JP2013539361A 2010-11-22 2011-11-18 複数の粒度でのテキスト分割 Expired - Fee Related JP5788015B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
CN201010555763.4 2010-11-22
CN201010555763.4A CN102479191B (zh) 2010-11-22 2010-11-22 提供多粒度分词结果的方法及其装置
US13/298,941 2011-11-17
US13/298,941 US8892420B2 (en) 2010-11-22 2011-11-17 Text segmentation with multiple granularity levels
PCT/IB2011/003364 WO2012095696A2 (en) 2010-11-22 2011-11-18 Text segmentation with multiple granularity levels

Publications (2)

Publication Number Publication Date
JP2014500547A JP2014500547A (ja) 2014-01-09
JP5788015B2 true JP5788015B2 (ja) 2015-09-30

Family

ID=46065146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013539361A Expired - Fee Related JP5788015B2 (ja) 2010-11-22 2011-11-18 複数の粒度でのテキスト分割

Country Status (7)

Country Link
US (3) US8892420B2 (ja)
EP (1) EP2643770A4 (ja)
JP (1) JP5788015B2 (ja)
CN (1) CN102479191B (ja)
HK (1) HK1167028A1 (ja)
TW (1) TWI512507B (ja)
WO (1) WO2012095696A2 (ja)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721238B2 (en) 2009-02-13 2017-08-01 Visa U.S.A. Inc. Point of interaction loyalty currency redemption in a transaction
US9031859B2 (en) 2009-05-21 2015-05-12 Visa U.S.A. Inc. Rebate automation
US8463706B2 (en) 2009-08-24 2013-06-11 Visa U.S.A. Inc. Coupon bearing sponsor account transaction authorization
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US8782042B1 (en) * 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US10360578B2 (en) 2012-01-30 2019-07-23 Visa International Service Association Systems and methods to process payments based on payment deals
FR2986882A1 (fr) * 2012-02-09 2013-08-16 Mining Essential Procede d'identification d'un ensemble de phrases d'un document numerique, procede de generation d'un document numerique, dispositif associe
US8880431B2 (en) * 2012-03-16 2014-11-04 Visa International Service Association Systems and methods to generate a receipt for a transaction
US9460436B2 (en) 2012-03-16 2016-10-04 Visa International Service Association Systems and methods to apply the benefit of offers via a transaction handler
US9922338B2 (en) 2012-03-23 2018-03-20 Visa International Service Association Systems and methods to apply benefit of offers
US9495690B2 (en) 2012-04-04 2016-11-15 Visa International Service Association Systems and methods to process transactions and offers via a gateway
CN103425691B (zh) * 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US9864988B2 (en) 2012-06-15 2018-01-09 Visa International Service Association Payment processing for qualified transaction items
US9626678B2 (en) 2012-08-01 2017-04-18 Visa International Service Association Systems and methods to enhance security in transactions
US10438199B2 (en) 2012-08-10 2019-10-08 Visa International Service Association Systems and methods to apply values from stored value accounts to payment transactions
US10685367B2 (en) 2012-11-05 2020-06-16 Visa International Service Association Systems and methods to provide offer benefits based on issuer identity
US10629186B1 (en) * 2013-03-11 2020-04-21 Amazon Technologies, Inc. Domain and intent name feature identification and processing
US10592980B1 (en) 2013-03-15 2020-03-17 Intuit Inc. Systems methods and computer program products for identifying financial accounts utilized for business purposes
CN103400579B (zh) * 2013-08-04 2015-11-18 徐华 一种语音识别系统和构建方法
CN104679738B (zh) * 2013-11-27 2018-02-27 北京拓尔思信息技术股份有限公司 互联网热词挖掘方法及装置
CN103942347B (zh) * 2014-05-19 2017-04-05 焦点科技股份有限公司 一种基于多维度综合词库的分词方法
CN104050294A (zh) * 2014-06-30 2014-09-17 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
CN104317882B (zh) * 2014-10-21 2017-05-10 北京理工大学 一种决策级中文分词融合方法
CN104598573B (zh) * 2015-01-13 2017-06-16 北京京东尚科信息技术有限公司 一种用户的生活圈提取方法及系统
CN104965818B (zh) * 2015-05-25 2018-01-05 中国科学院信息工程研究所 一种基于自学习规则的项目名实体识别方法及系统
CN106649249A (zh) * 2015-07-14 2017-05-10 比亚迪股份有限公司 检索方法和检索装置
CN106547743B (zh) * 2015-09-23 2020-03-27 阿里巴巴集团控股有限公司 一种进行翻译的方法及其系统
CN105550170B (zh) * 2015-12-14 2018-10-12 北京锐安科技有限公司 一种中文分词方法及装置
US10224034B2 (en) * 2016-02-03 2019-03-05 Hua Xu Voice recognition system and construction method thereof
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
US20170371850A1 (en) * 2016-06-22 2017-12-28 Google Inc. Phonetics-based computer transliteration techniques
CN106202039B (zh) * 2016-06-30 2019-06-11 昆明理工大学 基于条件随机场的越南语组合词消歧方法
CN106202464B (zh) * 2016-07-18 2019-12-17 上海轻维软件有限公司 一种基于变异回溯算法的数据识别方法
CN106227719B (zh) * 2016-07-26 2018-10-23 北京智能管家科技有限公司 中文分词歧义消除方法和系统
CN106484677B (zh) * 2016-09-30 2019-02-12 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
CN106569997B (zh) * 2016-10-19 2019-12-10 中国科学院信息工程研究所 一种基于隐式马尔科夫模型的科技类复合短语识别方法
CN108073566B (zh) * 2016-11-16 2022-01-18 北京搜狗科技发展有限公司 分词方法和装置、用于分词的装置
TWI656450B (zh) * 2017-01-06 2019-04-11 香港商光訊網絡科技有限公司 從中文語料庫提取知識的方法和系統
US10169325B2 (en) 2017-02-09 2019-01-01 International Business Machines Corporation Segmenting and interpreting a document, and relocating document fragments to corresponding sections
US10176889B2 (en) 2017-02-09 2019-01-08 International Business Machines Corporation Segmenting and interpreting a document, and relocating document fragments to corresponding sections
CN107168992A (zh) * 2017-03-29 2017-09-15 北京百度网讯科技有限公司 基于人工智能的文章分类方法及装置、设备与可读介质
CN110945514B (zh) 2017-07-31 2023-08-25 北京嘀嘀无限科技发展有限公司 用于分割句子的系统和方法
CN107729312B (zh) * 2017-09-05 2021-04-20 苏州大学 基于序列标注建模的多粒度分词方法及系统
CN107818079A (zh) * 2017-09-05 2018-03-20 苏州大学 多粒度分词标注数据自动获取方法及系统
WO2019049068A1 (en) * 2017-09-07 2019-03-14 Studeo Realty Marketing Inc. GENERATION OF SEQUENTIAL VISUAL NARRATIONS
CN108304373B (zh) * 2017-10-13 2021-07-09 腾讯科技(深圳)有限公司 语义词典的构建方法、装置、存储介质和电子装置
US10607604B2 (en) * 2017-10-27 2020-03-31 International Business Machines Corporation Method for re-aligning corpus and improving the consistency
CN108052500B (zh) * 2017-12-13 2021-06-22 北京数洋智慧科技有限公司 一种基于语义分析的文本关键信息提取方法及装置
CN109635157B (zh) * 2018-10-30 2021-05-25 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
US10885282B2 (en) * 2018-12-07 2021-01-05 Microsoft Technology Licensing, Llc Document heading detection
WO2020167586A1 (en) * 2019-02-11 2020-08-20 Db Cybertech, Inc. Automated data discovery for cybersecurity
JP7293767B2 (ja) * 2019-03-19 2023-06-20 株式会社リコー テキストセグメンテーション装置、テキストセグメンテーション方法、テキストセグメンテーションプログラム、及びテキストセグメンテーションシステム
CN110210034A (zh) * 2019-05-31 2019-09-06 腾讯科技(深圳)有限公司 信息查询方法、装置、终端及存储介质
CN110457551B (zh) * 2019-08-14 2021-04-23 梁冰 自然语言的语义递归表示系统的构造方法
CN111104800B (zh) * 2019-12-24 2024-01-23 东软集团股份有限公司 一种实体识别方法、装置、设备、存储介质和程序产品
CN111274353B (zh) * 2020-01-14 2023-08-01 百度在线网络技术(北京)有限公司 文本切词方法、装置、设备和介质
CN111931034B (zh) * 2020-08-24 2024-01-26 腾讯科技(深圳)有限公司 数据搜索方法、装置、设备及存储介质
CN112017773B (zh) * 2020-08-31 2024-03-26 吾征智能技术(北京)有限公司 一种基于噩梦的疾病认知模型构建方法及疾病认知系统
US11373041B2 (en) 2020-09-18 2022-06-28 International Business Machines Corporation Text classification using models with complementary granularity and accuracy
CN112784574B (zh) * 2021-02-02 2023-09-15 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN114386407B (zh) * 2021-12-23 2023-04-11 北京金堤科技有限公司 文本的分词方法及装置
CN116186698A (zh) * 2022-12-16 2023-05-30 广东技术师范大学 一种基于机器学习的安全数据处理方法、介质及设备
CN116991980B (zh) * 2023-09-27 2024-01-19 腾讯科技(深圳)有限公司 文本筛选模型训练方法及相关方法、装置、介质及设备

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH04262460A (ja) 1991-02-15 1992-09-17 Ricoh Co Ltd 情報検索装置
US6202058B1 (en) 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
JP3617096B2 (ja) 1994-05-25 2005-02-02 富士ゼロックス株式会社 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
US7133835B1 (en) 1995-08-08 2006-11-07 Cxn, Inc. Online exchange market system with a buyer auction and a seller auction
JP3565239B2 (ja) 1996-09-03 2004-09-15 日本電信電話株式会社 情報検索装置
EP1204032A4 (en) 1999-12-21 2008-06-11 Matsushita Electric Ind Co Ltd CREATION OF A VECTORIAL INDEX, SEARCH FOR SIMILAR VECTORS AND CORRESPONDING DEVICES
US7092871B2 (en) 2000-07-20 2006-08-15 Microsoft Corporation Tokenizer for a natural language processing system
US20020157116A1 (en) 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7805302B2 (en) * 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
EP1602039A2 (en) 2003-03-03 2005-12-07 Koninklijke Philips Electronics N.V. Method and arrangement for searching for strings
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
JP4754247B2 (ja) * 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US20080077570A1 (en) 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US8200687B2 (en) 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US20070067098A1 (en) 2005-09-19 2007-03-22 Zelentsov Oleg U Method and system for identification of geographic location
US8255383B2 (en) 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
WO2008019007A2 (en) 2006-08-04 2008-02-14 Thefind, Inc. Method for relevancy ranking of products in online shopping
JP2008287406A (ja) 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
TW200926033A (en) * 2007-07-18 2009-06-16 Steven Kays Adaptive electronic design
EP2191401A1 (en) 2007-08-27 2010-06-02 Google, Inc. Distinguishing accessories from products for ranking search results
US8301633B2 (en) * 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US8019748B1 (en) 2007-11-14 2011-09-13 Google Inc. Web search refinement
WO2009084554A1 (ja) 2007-12-27 2009-07-09 Nec Corporation テキスト分割装置とテキスト分割方法およびプログラム
CN101246472B (zh) * 2008-03-28 2010-10-06 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
JP4979637B2 (ja) 2008-06-06 2012-07-18 ヤフー株式会社 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
US8862989B2 (en) * 2008-06-25 2014-10-14 Microsoft Corporation Extensible input method editor dictionary
EP2259252B1 (en) 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input
CN101655838B (zh) * 2009-09-10 2011-12-14 复旦大学 一种粒度可量化的话题提取方法
US20110093331A1 (en) 2009-10-19 2011-04-21 Donald Metzler Term Weighting for Contextual Advertising
US9348892B2 (en) 2010-01-27 2016-05-24 International Business Machines Corporation Natural language interface for faceted search/analysis of semistructured data
EP2534585A4 (en) 2010-02-12 2018-01-24 Google LLC Compound splitting
CN102236663B (zh) 2010-04-30 2014-04-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
US8515968B1 (en) 2010-08-13 2013-08-20 Google Inc. Tie breaking rules for content item matching
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CA2721498C (en) 2010-11-25 2011-08-02 Microsoft Corporation Efficient use of exceptions in text segmentation
US20120191745A1 (en) 2011-01-24 2012-07-26 Yahoo!, Inc. Synthesized Suggestions for Web-Search Queries
US20120317088A1 (en) 2011-06-07 2012-12-13 Microsoft Corporation Associating Search Queries and Entities

Also Published As

Publication number Publication date
EP2643770A2 (en) 2013-10-02
WO2012095696A3 (en) 2012-11-08
JP2014500547A (ja) 2014-01-09
US8892420B2 (en) 2014-11-18
TW201222291A (en) 2012-06-01
EP2643770A4 (en) 2017-12-27
US20150100307A1 (en) 2015-04-09
CN102479191B (zh) 2014-03-26
CN102479191A (zh) 2012-05-30
US20160132492A1 (en) 2016-05-12
WO2012095696A2 (en) 2012-07-19
US20120130705A1 (en) 2012-05-24
US9223779B2 (en) 2015-12-29
HK1167028A1 (en) 2012-11-16
TWI512507B (zh) 2015-12-11

Similar Documents

Publication Publication Date Title
JP5788015B2 (ja) 複数の粒度でのテキスト分割
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
Yan et al. Named entity recognition by using XLNet-BiLSTM-CRF
KR20120001053A (ko) 문서 감성 분석 시스템 및 그 방법
US11429792B2 (en) Creating and interacting with data records having semantic vectors and natural language expressions produced by a machine-trained model
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
EP3598321A1 (en) Method for parsing natural language text with constituent construction links
JP2004318510A (ja) 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
JP4325370B2 (ja) 文書関連語彙獲得装置及びプログラム
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
US20190095525A1 (en) Extraction of expression for natural language processing
JP4900947B2 (ja) 略語抽出方法、略語抽出装置およびプログラム
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
WO2009136426A1 (ja) 検索クエリ提供装置
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
Burkhardt et al. Semi-Automatic Ontology Engineering in Business Applications
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
JP5691558B2 (ja) 例文検索装置、処理方法およびプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP4308543B2 (ja) キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム
JP2005190185A (ja) 類似文選択方法、類似文選択装置、および、類似文選択プログラムの記録媒体
Alam et al. Improving accessibility of archived raster dictionaries of complex script languages
JP2000259627A (ja) 自然言語文関係判定装置、自然言語文関係判定方法およびこれを用いた検索装置、検索方法ならびに記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140826

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141125

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150728

R150 Certificate of patent or registration of utility model

Ref document number: 5788015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees