JP4302326B2 - テキストの自動区分 - Google Patents

テキストの自動区分 Download PDF

Info

Publication number
JP4302326B2
JP4302326B2 JP2000585784A JP2000585784A JP4302326B2 JP 4302326 B2 JP4302326 B2 JP 4302326B2 JP 2000585784 A JP2000585784 A JP 2000585784A JP 2000585784 A JP2000585784 A JP 2000585784A JP 4302326 B2 JP4302326 B2 JP 4302326B2
Authority
JP
Japan
Prior art keywords
word
string
new
words
working string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000585784A
Other languages
English (en)
Other versions
JP2002531892A (ja
Inventor
ヤ−チャーン チュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2002531892A publication Critical patent/JP2002531892A/ja
Application granted granted Critical
Publication of JP4302326B2 publication Critical patent/JP4302326B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

【0001】
本発明は、結合テキストをワードに区分する方法に関し、前記結合テキストを表す入力ストリングを読み出すステップ、前記入力ストリングを辞書のワードと比較することにより、前記入力ストリングの少なくとも1つの分離するワードのシーケンスを識別するステップ、及び前記識別されたワードシーケンスの少なくとも1つを出力するステップを備える。
【0002】
本発明は、更に、結合テキストをワードに区分するシステムに関し、前記結合テキストを表す入力ストリングを読み出す手段、前記入力ストリングを辞書のワードと比較することにより、前記入力ストリングの少なくとも1つの分離するワードのシーケンスを識別する手段、及び前記識別されたワードシーケンスの少なくとも1つを出力する手段を備える。
【0003】
音声処理システム、手書き/光学式文字認識システム、自動翻訳システムのようなデータ処理システム、又は文書処理システムでのスペル/文法検査のために、ますます高度の自然言語処理技術が使用されている。このようなシステムは、しばしば、個々のワード又はワードシーケンスに関する統計情報を用いる。この統計情報は大きなテキストコーパスを解析することにより得られる。この解析のため、個々のワードはテキストで識別される必要がある。西洋言語を含めた多くの言語では、単語は、識別を容易にするために、スペース又は他の句読点のような境界マーカにより分離される。しかしながら、多くの他の言語は単語の間に境界マーカを持たない。このような言語の例として、中国語、日本語及びハングル語のような多くのアジア言語がある。このような言語は、ときには膠着言語と呼ばれる。典型的に、このような言語は特別の文字(”表意文字”)を使って書かれ、この各文字は、1つ以上の音節を表し、また、通常は、ある概念又は意味のある単位を表す。単語は1つ以上のこれら文字を含む。このような言語の文章の読取装置は、この文章を理解するために、これら単語の境界を識別しなければならない。多くのアプリケーションでは、1つのみの単語列が識別されなければならない。
【0004】
US5,448,474から、結合した中国語の文章から中国語の単語を分離するための方法及びシステムが知られている。このシステムでは、辞書探索処理が行われ、ここでは、テキストの全てのサブストリングが識別される。このテキストの各文字に対し、辞書の各単語についてこの各単語がテキストのある位置で始まる単語に一致するかどうかが検査される。1例として、”software”というテキストに対しては、位置0(このテキストの第1の文字)において”so”、”soft”及び”software”という単語、位置1において”of”及び”oft”という単語、位置4において”war”及び”ware”という単語、位置5において”a”及び”are”という単語、位置6において”re”という単語の一致が発見される。各一致に対して、表に入力される。この入力項目は、一致した単語、一致の検査が開始されたテキストの位置、及び単語の長さを有する。もし、ある位置において、一致する単語が発見されなければ、その位置における個々の文字を含めて、表に入力される。この方法では、全ての一致した単語及び不一致の文字が表に加えられる。次に、1つの単語が、その単語に先行する単語の終結位置に隣接して開始し、次の単語の開始位置に隣接して終結しなければならないという条件に基づいて、表の項目の数を減少させる。この方法では、(隣接せずに)オーバラップする単語が除去されるため、テキストの部分が識別された単語で補填されることができない。オーバラップする単語の不要な削除を訂正するために、一致しオーバラップした単語のうち最も長い単語を保持するという条件に基づいて、分離復元処理が行われる。最後に、テキスト又は別の削除されていない単語の終結又は開始に隣接していない全ての単語が、再度除去される。最終的な結果として、可能性のあるいくつかの単語シーケンスを有することができる。一般のテキストの単語が現れる頻度に関する情報は、1つのシーケンスを選択するために使用されてもよい。例えば、2文字の中国語の単語を伴う単語シーケンスは、2文字の単語が単一文字の単語よりも一般的であるため、2つの単一文字の単語により表される2文字の同じシーケンスよりも選択される。
【0005】
既知の分離手続きは複雑であり、誤った削除を訂正するために復元処理を必要とする。
【0006】
本発明の目的は、先に述べたような種類の方法及びシステムであって、より効率のよい方法及びシステムを提供することを目的とする。
【0007】
本発明の目的を達成するため、本発明の方法は、少なくとも1つのワードシーケンスを識別する前記ステップが、前記入力ストリングを作業ストリングとして受け取ることにより、前記入力ストリングのワードシーケンスを表すツリー構造を構築するステップを含み、該ステップが、
【0008】
辞書の各ワードに対して、
【0009】
前記各ワードを前記作業ストリングの開始と比較し、
【0010】
もし前記ワードが前記作業ストリングの開始と一致した場合、
【0011】
前記ワードを表す前記ツリーにノードを形成し、
【0012】
前記入力ストリングの、前記ワードの終結位置に直接隣接する位置で始まる部分と、前記ノードとを対応付け、
【0013】
前記対応付けられた部分を前記作業ストリングとして用いることにより、前記ノードに対応付けられる前記入力ストリングの前記部分のワードシーケンスを表し前記ノードにリンクされるサブツリーを形成することを繰り返すやり方で、
【0014】
前記ツリー構造を構築することを特徴とする。
【0015】
ツリーを構築することにより、入力ストリングの分析が、先行するワードに隣接するワードのみを自動的に識別する結果となる。全ての識別されたワードシーケンスの最後のワードが入力ストリングの終結で終わるようにすることが原理的に可能である。この方法では、ありそうではないワード(先行するワードを考えて)は候補として考慮されない。これにより、処理されるデータ量が減少する。更に、ワードを削除し、オーバラップした部分を再び導入するという複雑な手続きが不要である。本発明によれば、サンプルストリング”software”を区分すると、2つの主ブランチを伴う論理ツリー構造になる。1つはワード”software”を表す単一ノードを有するブランチであり、もう1つは、ワード”soft”及び”ware”それぞれを表す2つのリンクしたノードを有するブランチである。この結果、従来のシステムでは10の項目が必要となる代わりに、3つのみの項目が必要となるだけである。
【0016】
従属項2に記載されたような本発明に係る実施例では、所定の条件が満たされた場合、複数の新しいワードが異なる長さで加えられる。単一のキャラクタワードではない未知の一連のキャラクタのシーケンスをデータ構造に加えることにより、複数キャラクタの新しいワードを簡単な方法で識別することが可能となる。これにより、日本語のように多くの単一文字が1つの単語を表さない言語に対し適切な手続きが行われる。更に、複数キャラクタのワードを望ましい新しいワードとして識別することが可能となり、この場合、単一キャラクタのワードが辞書に入力される必要は無い。この方法では、辞書が’polluted’を単一文字の単語として得ることが防止される。辞書に多くの単一キャラクタの項目を持たせると、テキストをワードに正しく区分する確率が減少する。一例として、テキスト”thisbook”は、もし単一文字”t”が辞書にあれば、”t”、his”及び”book”という一連の単語に区分されるかもしれない。
【0017】
従属項3に記載されたような本発明に係る実施例では、上記の条件は、存在する辞書を用いてワードシーケンスが識別されるか否かに基づいた決定を、全体に渡って行うことである。もし、シーケンスが識別されることができなければ、新しいワードが加えられる。従属項3における検査は、最初に、存在する辞書の既知のワードのみを用いてツリー構造を構築し、このツリーが構築された後、少なくとも1つの経路が入力ストリング全体と一致しているワードシーケンスを表すかどうかを確認することにより、行われる。この確認は、ツリー構造の構築の間、ツリーを経由する第1の経路が入力ストリングの終結に到達したときに(ストリングの終結に到達したという)パラメータを設定することで、非常に簡単に行われる。
【0018】
従属項4に規定されたような実施例では、新しいワードは、当該経路の対応するワードシーケンスが入力ストリング全体と一致しない前記経路の1つ以上のエンドノードに加えられる。このようなノードは、ツリーを経由する経路をたどるとともに、経路のエンドノードが入力ストリングの終結に対応するか否かを確認することにより、簡単に配置することができる(すなわち、ワードはストリングの配置と同じく一致する。これは、エンドノードに対応する入力ストリングの部分が空かどうかを確認し、ストリング全体をたどって一致ワードが見つかったことを指示するという簡単なやり方で、検査することができる)。好ましい実施例では、(上述したように)新しいワードを加えるか否かの決定が全体に渡って行われる。もし、新しいワードが加えられるべきであれば、ツリー構造が再構築される。ツリーの再構築の間、新しいワードを加えるためのノードは、辞書のワードが入力ストリングの残りの部分に一致しないようなツリーの場所で見つけられる(ストリング全体はまだ処理されていない)。
【0019】
従属項5に規定されたような実施例では、何個のワードが作業ストリングの開始に一致するかを計算する。もし、計算された数が閾値より低ければ、このとき新しいワードが加えられる。加えられる新しいワードの数は、発見された一致ワードの数に依存し、ほとんど一致するワードがほとんど発見されない場合は、新しいワードがより多く加えられることが好ましい。この方法では、ワードシーケンスに代わりのワードが所望の数だけ作成される。従属項6に規定されたような実施例では、極端な例として、閾値は1とすることができ、この結果、存在する辞書の単一ワードが作業ストリングの開始と一致しなければ、新しいワードが加えられる。請求項5及び6の実施例は、ツリーの中で、局所的に決定を行うために用いられることが好ましい。ツリーの中の各ブランチに対して、新しいワードが(更に)加えられるか否かが決定される。
【0020】
従属項7に規定されているような局所的決定を行うための代わりの実施例では、経路の既に新しいワードの数は、新しいワードを加えることが必要か否かを決定するための手段として用いられる。’理想的な’ケースでは、はじめて経路に新しいワードが必要な場合は、新しいワードが1個か数個のみ加えられ、これは、実際(人間が読むという観点から見て)全て可能である。実際は、異なる長さを持つ多くの候補が、検査のために必要かもしれない。いくつかの誤った候補のワードでは、ストリングの残りの部分でワードを識別するときに位置合わせの不良が生じる可能性がある。特別な手段が無ければ、このような位置合わせ不良が生じると、(他の新しいワード等が後続する可能性のある)他の新しいワードを加える結果となるだろう。例えば、経路に2個又は3個の新しいワード加えることを許容することにより、誤った新しいワードにより生じる多くのシーケンスを伴ってツリーがすばやく拡張することが避けられる。
【0021】
従属項8に規定されたような局所的決定を行うための別の実施例では、ワードシーケンス(及びツリーを経由する対応する経路)の尤度が計算される。もし尤度が低すぎるのであれば、経路はもはや拡張されない。この方法では、新しいワードを含むことができるが現実に即していない区分は、これ以上考慮されない。閾値は相対的なランクを確保するために動的に設定することが有利である。もし、既に1つ以上のシーケンスが(計算された尤度により)識別されていたならば、他のシーケンスは、このシーケンスがより高い尤度を持つ限りは処理されるだけである。新しいワードは所与の比較的低い尤度であることが好ましく、ここでは、この尤度は新しいワードの長さに依存してもよい。この方法では、従属項9に規定されているように、ワードシーケンスの尤度はこのシーケンスの新しいワードの数にしたがって減少する。この方法では、新しいワードの誤った選択により(ストリングの残りの部分には位置合わせ不良が生じ、更に新しいワードが供給される結果となる)、多くの新しいワードを伴う連続的に拡張するツリーが形成される。
【0022】
従属項10に規定されたような実施例によれば、新しいワードの長さはK(K>1)個のキャラクタに制限される。特に、主に短いワードを伴うアジアの言語に対しては、Kは5であることが好ましく、大部分のワードは極端に長いツリーを構築しなくても識別されることができる。
【0023】
従属項11に規定された実施例によれば、ツリーの経路は、経路の最後のワードが入力ストリングの終結に位置合わせされて終了する場合、適正な区分を表すために考慮されるだけである。これは、対応するワードが入力ストリングの終結に位置合わせされるツリーのエンドノード(リーブ)のみから開始してバックトレースすることにより、適正なシーケンスを識別することを可能とする。
【0024】
従属項12に規定されたような実施例によれば、ツリーを経由する最も適切な経路を決定するために、統計的N−グラム(gram)言語モデルが用いられる。この方法では、いくつかの可能性のあるシーケンスから最も適切なシーケンスを選択するために、基礎となる決定が行われる。このシーケンスのワードは区分されたテキストを表すものとして出力される。特に、この方法が音声認識システム用の辞典(語彙及び/又は言語モデル)を構築するために用いられる場合、N−グラム言語モデルを伴う既に存在するデフォルト辞典が使用されることが好ましい。もし語彙が多ければ(例えば、10000項目を超える)、2−グラム又は3−グラムが使用されることが好ましい。
【0025】
本発明の目的を達成するために、システムは、少なくとも1つのワードシーケンスを識別する手段が、前記入力ストリングを作業ストリングとして受け取ることにより、前記入力ストリングのワードシーケンスを表すツリー構造を構築するように動作し、該手段が、
【0026】
辞書の各ワードに対して、
【0027】
前記各ワードを前記作業ストリングの開始と比較し、
【0028】
もし前記ワードが前記作業ストリングの開始と一致した場合、
【0029】
前記ワードを表す前記ツリーにノードを形成し、
【0030】
前記入力ストリングの、前記ワードの終結位置に直接隣接する位置で始まる部分と、前記ノードとを対応付け、
【0031】
前記対応付けられた部分を前記作業ストリングとして用いることにより、前記ノードに対応付けられる前記入力ストリングの前記部分のワードシーケンスを表し前記ノードにリンクされるサブツリーを形成することを繰り返すやり方で、
【0032】
前記ツリー構造を構築するように動作することを特徴とする。
【0033】
本発明のこれら及び他の態様は、図に示された実施例を参照しながら明瞭に説明されるだろう。
【0034】
説明を容易にするため、テキストをワードに区分する例として、ラテン文字で表されたテキストが示されている。実際は、カタカナ又はひらがなのような異なる文字記号も含めて適用することができる。
【0035】
図1は、本発明に係るシステム100のブロック図を示す。このシステム100は、結合テキストを表す入力ストリングを受け取るための入力手段110を含む。このストリングは、語句、文、又は複数の文の大きなテキストを表す。日本語や中国語のようなアジアの言語では、文は分離文字により分離される。このような言語に対し、より大きなテキストは、文単位で区分されることが好ましい。このため、より大きなテキストは、先ず文を識別する文セパレータを用いて文に区分され、この個々の文は、本発明に係る方法を用いて区分される。典型的には、入力ストリングはテキストファイルから読み出される。必要であれば、このファイルは、内蔵又は外部コンバータを用いて共通フォーマットに変換されてもよい。テキストは、例えば、文書を走査し、文字ストリングを認識するためのOCR技術を用いることにより、ハードコピー文書から検索されることもできる。
【0036】
このシステムは、入力ストリングを1つ以上のワードシーケンスに区分するための識別手段120を更に含む。典型的には、この識別手段120は、ソフトウェアや、PC又はワークステーションプロセッサのような適切なプロセッサで実行される。この識別手段120は辞典(辞書)122を使用し、区分用の言語モデル124も自由に使用する。辞典122及び言語モデル124用の語彙は、特定の言語の分離ワードに基づくと仮定する。このシステムは異なる言語用の異なる語彙をサポートしてもよい。語彙のサイズは、システムのサイズ及び複雑さに対して変更してもよい。出力手段130は、少なくとも1つの識別されたワードシーケンスを出力するために用いられる。多くの状況では、ワードシーケンスを1つ(又は数個)のみ出力することが好ましいだろう。本発明に係る方法及びシステムは、例えば自動索引を生成するために、可能なワード候補のうちのいくつか又は全てを分析することが望まれているアプリケーションに対して用いることもできるという良さがある。
【0037】
この方法及びシステムは、多くの語彙の連続音声認識又は手書き認識システムのようなパターン認識に用いられることが好ましい。ここでは、語彙はワードを認識するために用いられ、言語モデルは基本的な認識結果を改良するために用いられてもよい。パターン認識に用いられる技術は、本発明に係る区分方法に対して有利に使用することもできるため、最初に、パターン認識システムについて記載する。図2は、スペクトル分析サブシステム210及びユニットマッチングシステム220[1993年、プレンティスホール(Prentice Hall)からのL.Rabiner, B-H.Juang による”音声認識の基本”の434ページから454ページを参照]を有する連続音声認識システム200を示す。このスペクトル分析サブシステム210では、音声入力信号(SIS)は、特徴の表現ベクトル(観測ベクトルOV)を計算するためにスペクトル分析及び/又は時間分析される。典型的には、音声信号はデジタル化され(例えば、6.67kHzのサンプリングレートでサンプリングされる)、例えば前強調等の前処理が行われる。連続サンプルは、例えば32msecの音声信号に対応するフレームにグループ化(ブロック化)される。連続するフレームは部分的に、例えば16msecがオーバラップする。各フレームに対し特徴の表現ベクトル(観測ベクトル)を計算するために、しばしば、線形推定符号化(LPC)スペクトル分析法が用いられる。この特徴ベクトルは、例えば、24、32及び63の成分を有する。ユニットマッチングサブシステム220では、観測ベクトルは音声認識ユニットのインベントリに対して照合される。音声認識ユニットは、音響基準のシーケンスにより表される。音声認識ユニットは様々な形態のものを使用することができる。一例として、全ワード又はワードのグループでさえも1つの音声認識ユニットにより表されることができる。ワードモデル(WM)により、所与の語彙の各ワードに対し、音響基準のシーケンスの表現形式が与えられる。全ワードが音声認識ユニットにより表されるシステムでは、ワードモデル及び音声認識ユニットの間に、直接的な関係が存在する。別のシステム、特に大きな語彙のシステムは、言語的に、フォン(phone)、ダイフォン(diphone)又は音節(syllable)のようなサブワードユニット、フェネン(fenenes)及びフェノン(fenones)のような微分ユニットに基づいた音声認識ユニットに対して用いられる。このようなシステムに対して、ワードモデルは、語彙のワードに関するサブワードユニットのシーケンスを記載する辞典234、及び含まれる音声認識ユニットの音響基準のシーケンスを記載するサブワードモデル232により与えられる。ワードモデル構成部236は、サブワードモデル232及び辞典234に基づいたワードモデルを構成する。図3Aは、全ワード音声認識ユニットに基づいたシステム用のワードモデル300を示す。示されているワードの音声認識ユニットは、10個の音響基準(301から310)のシーケンスを用いてモデリングされる。図3Bは、サブワードユニットに基づいたシステム用のワードモデル320を示す。示されているワードは、3個のサブワードモデル(350,360及び370)のシーケンスによりモデリングされる。各サブワードモデル350,360及び370は、4つの音響基準(351,352,353,354;361乃至364;371乃至374)のシーケンスを備えている。図3に示されるワードモデルは、音声及び手書信号を統計的に作るために広く用いられている隠れマルコフモデル(HMM)に基づいている。このモデルを用いることにより、各認識ユニット(ワードモデル又はサブワードモデル)は、典型的にHMMにより特徴付けられ、そのパラメータはデータのトレーニングセットから推定される。大きなユニット用のHMMを適切に訓練するためには多くのトレーニングデータが必要であるため、例えば10,000から60,000ワードを含む大きな語彙の音声認識システムに対しては、通常例えば40に制限されたサブワードユニットのセットが用いられる。HMMの状態は(音声認識用の)音響基準又は(手書き認識用の)代筆基準に対応する。離散又は連続確率密度を含む基準をモデリングするための様々な技術が知られている。
【0038】
図2に示すワードレベルマッチングシステム230は、音声認識ユニットの全シーケンスに対して観測ベクトルを照合し、このベクトルとシーケンスとの間の一致の尤度を与える。サブワードユニットが用いられる場合、サブワードユニットの一致可能性のあるシーケンスを辞典234のシーケンスに制限するため、この辞典234を用いて照合が制限される。これにより、一致可能性のあるワードシーケンスが減少する結果となる。センテンスレベルマッチングシステム240は、照合に当たって他の制限を与える言語モデル(LM)を用い、その結果、調査された経路は、言語モデルにより特定されるような適切なシーケンスであるワードシーケンスに対応する。この方法では、ユニットマッチングサブシステム220の結果は認識されるセンテンス(RS)である。パターン認識に用いられる言語モデルは、言語及び認識タスクの構文制限及び/又は意味制限242を含むことができる。構文制限に基づく言語モデルは、通常、文法244と呼ばれる。
【0039】
同じようなシステムが、手書き認識用に知られている。手書き認識システムに用いられる言語モデルは、ワードシーケンスの特定に加えて又は代わりに、文字シーケンスを特定してもよい。
【0040】
言語モデルにより用いられる文法244は、ワードシーケンスW=w…wの確率を与える。この確率は原理的に以下の式で与えられる。
P(W)=P(w)P(w|w).P(w|w)…P(w|w…w
【0041】
実際は、所与の言語の全てのシーケンス長及び全てのワードに対し、条件ワード確率を確実に推定することは不可能であるため、N−グラムワードモデルが広く用いられる。N−グラムモデルでは、項P(w|w…wj−1)はP(w|w1−N+1…wj−1)で概算が求められる。実際は、バイグラム(bigram)又はトリグラム(trigram)が用いられる。トリグラムでは、項P(w|w…wj−1)はP(w|w1−2j−1)で概算が求められる。自動的にN−グラム言語モデルを構築する方法では、単純な相対度数F(wj−N+1…wj−1)/F(wj−N+1…wj−1)により条件確率P(w|wj−N+1…wj−1)を推定する。ここで、Fは、所与のテクスチュアルトレーニングコーパスの変数でのストリングの発生数である。信頼できる値を得るためには、F(wj−N+1…wj−1)は所与のコーパスにおいてかなり大きくすべきである。
【0042】
パターン認識のためには、辞書及び辞典の双方が、認識されるテキストを表すワードに基づいていることが望まれる。これは、典型的なテキストを分析し、そのテキストからワードを抜き出し、ワード又はワードシーケンス度数に基づき言語モデルを構築することにより達成される。本発明に係る区分方法は、結合テキストからワードを抜き出すために、有利に用いることができる。パターン認識システムの辞書又は辞典をトレーニングするためには、1つのみのワードシーケンスの出力を与えるだけで十分である。パターン認識システムに用いられる場合は、区分システム100は、出力ワードシーケンスの新しいワードを辞典122に取り入れるための(すなわち、まだワードは辞典122には存在しない)更新手段140を含むことも好ましい。言語モデルは、例えば、新しいワード又はこの新しいワードを含む新しいワードシーケンスの尤度、及び既知のワード又はワードシーケンスの尤度を反映するために、更新されることも好ましい。
【0043】
本発明によれば、入力ストリングの分離されたワードシーケンスを表すツリー構造を構築することにより、区分が行われる。もし、辞書が既に区分されるテキストの全てのワードを含んでいれば、原理的には、新しいワードを加える必要はない。結果として、ワードシーケンスは、1つ以上の新しいワードを含むかもしれないし、含まないかもしれない。もし新しいワードを加える必要がある場合は区分はより難しく複雑であるため、テキストが既知のワードを用いるだけで区分することができるかどうかを先ず決定することが好ましい。全体のプロセスは図4に示されている。ステップ410では、入力ストリングがテキストコーパス420から検索される。先に説明したように、ストリングは、語句、文、又は複数の文のテキストを表すことができる。ステップ430では、コーパス全体が既に区分されたかどうかを確認する。もし区分されているのであれば(ストリングは空である)、プロセスはステップ440に抜け出る。もし区分されていなければ、ステップ450で、テキストは所与の辞典(既知のワードのみ)を用いて区分される。これは、各ノードが既知のワードを表すツリー構造を構築することにより行われることが好ましい。完成していない(ワードシーケンスを表す)ツリーを経由する経路は(既知のワードはストリングの残りの部分と一致していない)、終結する。ステップ450については、後から、図5を参照しながらより詳細に説明する。ステップ460では、テキストが既知のワードのみで区分されたか否かを検査する。これは、構成されたツリーを経由する少なくとも1つの経路が完成されたか否かを確認することにより、検査することができる(すなわち、経路のエンドノードに対応するワードが、ストリングの終結キャラクタに一致し、更にこのストリングの終結に位置している)。これを実行するために、ストリング全体に一致する経路が発見されるまで、ツリーを経由する経路を追従することができる。好ましくは、ツリーが構成されている間にストリングの終結に到達したとき、この事実は、例えば”ストリングの終結への到達”パラメータとして記憶される。この方法では、経路が完成したか否かを確認することは、まさに、記憶された情報の検査を含んでいる。もしステップ460のテストの結果、テキストが区分されたことが示されると、識別されたワードシーケンスはステップ470に出力され、ステップ410で引き続き処理される。もし、テキストが区分されていないと、プロセスは、ストリングを再度区分するとともに、新たなワードを加えることが可能なステップ480に進む。ステップ480については、後から、図6を参照しながらより詳細に説明する。ステップ460で、既知のワードで区分されたものとして識別されたストリングは、実際、新しいワードを用いて区分することもできる。テキストを読む人間は、新しいワードを含む区分を好むかもしれず、即ち、それら新しいワードを伴うワードシーケンスは、既知のワードを伴う識別されたシーケンスよりも発生しやすそうである。この状況が起きることはまれである。それにもかかわらず、新しいワードでストリングを区分することに限らないでこの状況を処理するためには、ステップ460の一部で、任意に、(例えば、N−グラム言語モデルを用いて)既知のワードシーケンスの尤度を決定することが好ましく、この尤度が所与の閾値以上であればテキストは既知のワードで区分することが可能であると識別され、さもなければ、新しいワードで区分が開始される。
【0044】
図5は、ストリングを既知のワードのみで区分するときのフローチャートである。本発明によれば、ツリー構造が構築される。原理的には、ツリー構造を構成し表すためにふさわしい技術であれば、いかなる技術が用いられてもよい。図5の例では、ツリーは(ツリーノードを表す)エレメントのリストを用いることにより表され、エレメント(ポインタ)の間(ノード間の経路を表す)をリンクする。この例では、2つのリストが用いられている。終結リストは、一致するワードに対応するエレメントを含み、入力ストリングの終結に一致する。待ちリストは、ストリングに一致するワードに対応するエレメントを含むが、入力ストリングの終結には一致しない。各エレメントは辞書に存在するワードに対応付けられる。この対応は、適切な方法(例えば、ワードをコピーし、そのワードをエレメントのデータ構造に記憶する、又は基準(ポインタ又は番号)を辞書の項目に記憶する)であればいかなる方法でも行うことができる。更に、各エレメントは、入力ストリングの、このエレメントに対応するワードに続く部分に対応付けられる。特別のエレメントはルートエレメントであり、このエレメントは入力ストリング全体に対応し、ワードには対応しない。ルートエレメントは全ての実施可能なワードシーケンスを統合する役割をもつ。実際、個別のルートエレメントを備える必要はない。代わりに、入力ストリングの開始に一致する辞書の各ワードに対して、新しいエレメントを作成することができる。このような作成されたエレメントは、ワードシーケンスの第1エレメントの役割をもつ。ステップ510及び511には、プロセスのループの初期化が含まれる。ステップ510では、ルートエレメントが作成され、入力ストリングがこのルートエレメントに対応付けられる。ステップ511では、ルートエレメントは待ちリストに置かれる。ステップ512では、待ちリストのエレメントはアクティブエレメントとして選択される(その結果、ルートエレメントは初期アクティブエレメントとして選択される)。ステップ512では、作業ストリングがロードされる。待ちリストの現在のアクティブエレメントに対応するストリングは、作業ストリングとして用いられる。入力ストリングは、最初は待ちリストのアクティブエレメントであるルートエレメントに対応しているため、入力ストリング全体が最初に作業ストリングとして用いられる。ループの中のステップ514及び516では、辞書の全てのワードがこの辞書から連続して検索される。次のワードの検索はステップ514で行われる。ステップ516では、引き続きワードが検索されたか否かが検査される(全てのワードはまだテストされていない)。もし、ワードが検査されていた場合、ステップ518で、ワードが作業ストリングの開始に一致するか否かが確認される。もし、一致していなければ、次のワードが、ステップ514で検索される。一致すると、ステップ520で新しいエレメントが作成される。このエレメントはワードに結合され(例えば、ワードはこのエレメントに対応して記憶される)、(一致したワードが作業ストリングの開始から除去された後、)作業ストリングの残りの部分にも結合され、親エレメント(即ち、入力ストリングの先行するワードに対応するエレメント)にリンクされる。ルートエレメントは、入力ストリングの開始に一致するワードに対し、この開始ワードに対応するエレメントに対する親エレメントとしての役割を持つ。ステップ522では、入力ストリングの終結に到達したか否か(即ち、作業ストリングの残りの部分が空であるか否か)が検査される。もし、入力ストリングの終結に到達した場合、ツリーを経由する経路が終了し、ワードシーケンスが発見される。このシーケンスを容易に検索できることを確実にするため、ステップ524において、エレメントは終結リストに記憶される。1つのワードシーケンスを識別することのみで十分なシステムに対しては(最も有りそうとは限らない)、ストリングの終結に一度到達したら、手続きが終了する。もし、ストリングの終結がまだ検索されていなければ、エレメントは待ちリストに記憶される(ステップ526)。ストリングの残りの部分は後から区分される。双方の場合において、(作業ストリングの開始と比較しながら)ワードが処理され、ステップ514において次のワードが検索される。もし、作業ストリングに対し、辞書の全てのワードがこのストリングの開始と比較されると、ループはステップ516を抜ける。ステップ528において、待ちリストの中の現在選択されているエレメントは完全に処理されたため、この待ちリストから除去される。取り囲むループにおいて、まだ完全に処理されていない全ての作業ストリングが処理される。このような作業ストリング各々は、待ちリストに置かれたエレメントにより表される。それ故に、ステップ530では、待ちリストが空か否かが検査される。空でなければ、ステップ512において、待ちリストに置かれた次のエレメントが現在のアクティブエレメントとして選択される。もし、待ちリストが空であれば、(既知のワードのみで区分可能である限り)最初の入力ストリングは完全に区分されている。ステップ534では、終結リストが項目を含むか否かが検査される。もし、終結リストが項目を含まなければ、ステップ536に進み、既知のワードのみによる区分がうまくいかず、リターンされる。もし終結リストが空でなかったならば、終結リストの各エレメントは、ワードシーケンスを表す。実際、このエレメントはワードシーケンスの最後のワードに対応し、このシーケンスの以前のワードにリンクする。これにより、ステップ540において、終結リストのエレメントから始まるリンクしたエレメントをバックトレースすることにより、ワードシーケンスの検索が可能となる。全ての識別されたワードシーケンスをリターンしない場合は、ステップ538において、自由に1つ以上のワードシーケンスが選択され、ステップ542においてリターンされる。この選択は経路の尤度に基づいていることが好ましい。この目的のため、統計的N−グラム言語モデルが最も適切なワードシーケンスの決定に用いられることが有利である。もし、特別に、パターン認識システムの辞典及び/又は言語モデルを改良して区分が行われる場合、既に存在する言語モデルを用いることができる。(例えば、10000を終える)大きな語彙パターン認識システム用には、バイグラム又はトリグラムモデルを用いることが好ましい。
【0045】
本発明によれば、もし所定の基準を満たせば、異なる長さの複数の新しいワードがツリー構造に加えられる。ある実施例では、当該経路に対応するワードシーケンスが入力ストリング全体に一致しない前記経路の1つ以上のエンドノードに、新しいワードが加えられる。図5に示されているような方法は、基本ツリー構造を構築するために用いることができる。もし、例えば、後に既知のワードを用いて適切な区分が発見されない場合、ツリーを経由する経路をたどり、経路のエンドノードが入力ストリングの終結に対応するか否か(即ち、ワードは一致し、区分は入力ストリングの終結に到達するか否か)を確認することにより、新しいワードが加えられる必要があるノードを簡単に配置することができる。図5の技術を用いると、エレメント間でダブルリンクを維持することができ、1つは、(前と同じように)子エレメントを親エレメントにリンクするためのリンク、もう1つは、親エレメントを子エレメントにリンクするためのリンクである。この方法では、経路は、ルートから開始するツリーを経由してたどることができる。経路のエンドノードに対して、経路のエンドノードが終結リストにあるか否かの検査を行うことができる。もし、経路のエンドノードが終結リストに無ければ、新しいワードがこのエンドノードに加えられる。ツリーを経由する経路をトレースする代わりに、エンドノードに対応するするストリングが空ではない(即ち、既知のワードは入力ストリングの残りの部分の開始に一致しない)経路のエンドノードを表す第3のリストが導入されてもよい。これは、ステップ528で、少なくとも1つ一致しているものが見つかったか否かを確認することにより達成される。もし見つからなければ、エレメントは待ちリストから、不完全な区分を表す第3のリストに置かれる。一旦ノードが配置されたら、図6を参照しながら後により詳細に記載されているように、新しいワードが作成され、ツリーにエレメントとして表されることができる。エレメントを待ちリストに置くことにより、既知のワード区分用の図5に記載された方法と同じ方法で、ツリーの残りの部分を作成することできる。
【0046】
図6は、入力ストリングを区分するのに好ましい方法を示す。この実施例では、既知のワードの識別及び新しいワードを加えることが、一度に行われる。図5の同じ項目に対応する項目は、図5に用いられいる番号と同じ番号を用いて示されている。これらの項目については更に詳細に記載してはいない。もし、ステップ516の後、全てのワードが作業ストリングの開始に対して一致していたら、ステップ610において、新しいワードが加えられる必要があるか否かを決定するために、所定の条件が用いられる。もし、新しいワードが加えられる必要がある場合、ステップ612において、新しいワードの長さが初期化される(例えば1)。ステップ614において、ストリングの開始からキャラクタの長さをコピーすることにより、その長さのワードが作成される。ステップ520,522,524及び526について記載したのと同じ方法で、ステップ616において、対応するエレメントが作成され、ワード、親ノード及びストリングの残りの部分に対応付けられる。エレメントは、ストリングの終結に到達しているか否かによって、待ちリスト(ステップ622)又は終結リスト(ステップ620)に存在する。ステップ624では、最大長Kまでの全ての必要な新しいワードが作成されたか否かが検査される。ここで、Kは少なくとも2である。もし、作成されていない場合、ステップ626において、その長さが増加され、ステップ614において、新しいワードが作成される。もし、全ての新しいワードが作成された場合、ステップ528を伴う図5で説明したような処理が行われる。アジアの言語に対しては、Kは3と6との間に選択されることが好ましい。もし、これによって区分がうまくいかなければ、Kを増加することが有利である。
【0047】
本発明の実施例では、ステップ610でテストされた条件は、何個のワードが、作業ストリングの開始に一致しているかである。これは、ステップ512又は513の一部でリセットされるステップ520でカウントを増加することにより実行することができる。もし一致ワードの数が閾値以下であれば、そのときは、新しいワードが加えられる。新しいワードがいくつ加えられるかは、発見される一致ワードの数に依存し、もしほとんど一致ワードが発見されなければ、更に新しいワードが加えられることが好ましい。極端な例として、閾値が1の場合、もし、存在する辞書の単一ワードが、ノードに対応する作業ストリングの開始に一致していないと、ツリーのノードに新しいワードが付加される結果となる。
【0048】
代わりの実施例では、条件は既に経路にある新しいワードの数に基づく。これは、新しいワードが経路に挿入される各時刻でカウントを増加し、このカウントを経路の終結エレメントに対応付けることにより実行される。もし、経路が2つ又は3つの新しいワードを経路に含んでいる場合、新しいワードは経路に加えられないことが好ましい。しかしながら、もし、この方法において、区分がうまくいかなければ、経路の中で許容できる新しいワードの数を増加させてもよい。
【0049】
代わりの実施例では、条件はワードシーケンス(及びツリーを経由する対応する経路)の尤度に基づく。各ワードシーケンスの尤度は、対応する経路が作成されているとして計算されることが好ましい。積算された値は経路の終結エレメントに対応して記憶することができる。もし、ステップ610のテストの一部として、尤度が閾値以下であれば、経路はもはや拡張されない。新しいワードはこれ以上経路に加えられない。尤度の閾値は、相対的なランクを確保するために、動的に設定されることが有利である。もし、既に1つ以上のシーケンスが(計算された尤度で)識別されていたら、シーケンスがより高く又は同じような尤度を有する限りは、他のシーケンスは処理されるだけである。新しいワードは比較的小さい尤度が与えられることが好ましく、この尤度は新しいワードの長さに依存してもよい。この方法では、ワードシーケンスの尤度はシーケンスの新しいワードの数に伴い減少する。あらゆる適切な尤度の計算を行うことができる。新しいワードの尤度の値は、以下のようであることが好ましい。
未知のワード値=penalty+weight[min_unigramchar_nounigram_weight+Length_problength_weight],ここで、
−penaltyは、全ての新しいワードに対する固定ペナルティ値
−weightは、新しいワードスコアに対する全体の重付け要素
−min_unigramは、全ての既知のワードの最小発生度数(ユニグラムモデル)
−char_noは、新しいワードのキャラクタの数
−unigram_weightは、ユニグラムスコアに対する局所的重付け要素
−length_probは、この長さのワードの確率(長さ分布確率)
−length_weightは、長さ確率に対する局所的重付け要素
ペナルティ及び重付けパラメータは、確実に、新しいワードを既知のワードよりも低い値にする。
【0050】
本発明に係る他の実施例では、もしステップ610において、ワードが作業ストリングの開始に一致しないことが決定した場合、そのときは、これは、初期の段階で、誤った区分が生じたかもしれないという指示として見られる。例えば、一致する既知のワードが存在したが、実際はキャラクタが新しいワードの一部であった等である。この目的のため、ツリーは、好ましくは1つのステップでバックトレースされ、1つ以上の新しいワードがバックトレースの間に配置されたノードに加えられる。もし新しいワードが既に加えられていたら、これらワードは明らかに加えられない。もしある位置で、既知のワードと幾つか一致していることが既に発見されても、新しいワードが加えられる必要はない。後者の場合、これらのワードの少なくとも1つが正常なシーケンスへと続く。
【図面の簡単な説明】
【図1】 本発明のシステムのブロック図を示す。
【図2】 音声認識システムのブロック図を示す。
【図3】 ワード又はサブワードユニットをモデリングするための隠れマルコフモデルを示す。
【図4】 既知のワードのみ及び新しいワードで区分する2つのステップによる方法のフローを示す図である。
【図5】 既知のワードでツリーに基づいた区分を行うフローを示す図である。
【図6】 新しいワードでツリーに基づいた区分を行うフローを示す図である。
【符号の説明】
100 システム
110 入力手段
120 識別手段
122,234 辞典
124 言語モデル
130 出力手段
140 更新手段
200 連続音声認識システム
210 スペクトル分析サブシステム
220 ユニットマッチングシステム
230 ワードレベルマッチングシステム
232 サブワードモデル
236 ワードモデル構成部
240 センテンスレベルマッチングシステム
242 意味制限
244 文法
301,302,303,310,351,352,353,354,361,364,371,374 音響基準
360,360,370 サブワードモデル

Claims (8)

  1. 結合テキストを表す入力ストリングを読み出すための入力手段
    ワードを含む辞書手段と
    前記入力ストリングを少なくとも1つのワードシーケンスに区分するための識別手段
    前記区分されたワードシーケンスの少なくとも1つを出力するための出力手段
    有するシステムにおいて前記結合テキストをワードに区分する方法であって、
    前記識別手段は、記憶手段を有し、
    エレメントが、前記ワードに対応付けられるポインタとしての役割を果たすと共に、ルートエレメントが、前記入力ストリングに対応付けられるポインタとしての役割を果たし、
    リストが、前記ルートエレメント及び前記エレメントから構成されると共に前記記憶手段に記憶されており、前記リストは、待ちリストと終結リストとに分かれる
    方法において、
    a)前記識別手段が、前記入力ストリングを前記ルートエレメントに対応付けると共に、前記待ちリストに前記ルートエレメントを記憶するステップと、
    b)前記識別手段が、前記待ちリストに存在する前記ルートエレメントに対応する前記入力ストリングを作業ストリングとして選択するステップと、
    c)前記識別手段が、前記辞書のワードから、前記作業ストリングの一つ又は複数の開始キャラクタと一致するワードを検索し、前記ワードが前記作業ストリングの一つ又は複数の開始キャラクタと一致することを確認した場合、新たなエレメントを作成して、当該一致するワードを当該新たなエレメントに対応付け、親エレメントとしての役割を果たす前記ルートエレメントに前記新たなエレメントを子エレメントとしてリンクさせ、前記一致するワードを前記作業ストリングの開始部分から除去するステップと、
    d)前記識別手段が、前記作業ストリングの残りの部分が空であるか否かを検査するステップと、
    e)前記ステップd)の検査の結果、前記識別手段が、
    1)前記作業ストリングの残りの部分が空でないことを確認した場合、
    前記辞書のワードから、当該作業ストリングの残りの部分の一つ又は複数の開始キャラクタと一致するワードを検索し、
    i)前記ワードが前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタと一致することを確認した場合、
    新たなエレメントを作成して、当該一致するワードを当該新たなエレメントに対応付け、親エレメントとしての役割を果たす、前記入力ストリングのうち前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタに先行するワードに対応するエレメントに、当該新たなエレメントを子エレメントとしてリンクさせ、前記一致するワードを前記作業ストリングの残りの部分の開始部分から除去した後、前記d)以降のステップの実行を繰り返し、
    ii)前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタと一致するワードは前記辞書に存在しないことを確認した場合、
    前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタからキャラクタをコピーすることによって新たなワードを作成し、新たなエレメントを作成して、当該新たなワードを当該新たなエレメントに対応付け、親エレメントとしての役割を果たす、前記入力ストリングのうち前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタに先行するワードに対応するエレメントに、当該新たなエレメントを子エレメントとしてリンクさせ、前記新たなワードを前記作業ストリングの残りの部分の開始部分から除去した後、前記ステップd)の実行を繰り返し、
    2)前記作業ストリングの残りの部分が空であることを確認した場合、
    前記新たなエレメントを前記入力ストリングの終結として前記終結リストに記憶して、前記入力ストリングを少なくとも1つのワードシーケンスに区分する作業を終了するステップと
    を有する方法。
  2. 前記識別手段は、前記各作業ストリングに対して、前記辞書のワードのうち何個のワードが前記作業ストリングの一つ又は複数の開始キャラクタに一致するかを求めるステップと、
    前記識別手段は、前記作業ストリングの一つ又は複数の開始キャラクタに一致する前記辞書のワードの数が、所定の閾値よりも小さければ、前記新たなワードを作成することを決定するステップと
    有する請求項1に記載の方法。
  3. 前記閾値が1であることを特徴とする請求項に記載の方法。
  4. 前記識別手段が、前記各ワードシーケンスに対し、前記ワードシーケンスの新たなワードの数をカウントするステップと、
    前記識別手段は、前記カウントされた新たなワードの数が所定の閾値を超える場合、前記ワードシーケンスに前記新たなワードを加えることを終結するステップと
    有する請求項1に記載の方法。
  5. 前記識別手段が、前記各ワードシーケンスに対して尤度を計算するステップと、
    前記識別手段は、前記対応するワードシーケンスの前記尤度が所定の閾値よりも低い場合、前記ワードシーケンスに前記新たなワードを加えることを終結するステップと
    有する請求項1に記載の方法。
  6. 前記ワードシーケンスの前記尤度が、前記ワードシーケンスの新たなワードの数の関数として減少することを特徴とする請求項に記載の方法。
  7. 前記たなワードを形成する前記ステップがK(K>1)個までのワードを形成するステップを有し、該各ワードは、前記作業ストリングの開始キャラクタで始まり、1乃至K個の前記作業ストリングの前記開始キャラクタをそれぞれ含むことを特徴とする請求項1に記載の方法。
  8. 結合テキストを表す入力ストリングを読み出すための入力手段
    ワードを含む辞書手段と
    前記入力ストリングを少なくとも1つのワードシーケンスに区分するための識別手段
    前記区分されたワードシーケンスの少なくとも1つを出力するための出力手段
    有する、結合テキストをワードに区分するシステムであって、
    前記識別手段が、記憶手段を有し、
    エレメントが、前記ワードに対応付けられるポインタとしての役割を果たすと共に、ルートエレメントが、前記入力ストリングに対応付けられるポインタとしての役割を果たし、
    リストが、前記ルートエレメント及び前記エレメントから構成されると共に前記記憶手段に記憶されており、前記リストは、待ちリストと終結リストとに分かれる
    システムにおいて、前記識別手段が、
    a)前記入力ストリングを前記ルートエレメントに対応付けると共に、前記待ちリストに前記ルートエレメントを記憶し、
    b)前記待ちリストに存在する前記ルートエレメントに対応する前記入力ストリングを作業ストリングとして選択し、
    c)前記辞書のワードから、前記作業ストリングの一つ又は複数の開始キャラクタと一致するワードを検索し、前記ワードが前記作業ストリングの一つ又は複数の開始キャラクタと一致することを確認した場合、新たなエレメントを作成して、当該一致するワードを当該新たなエレメントに対応付け、親エレメントとしての役割を果たす前記ルートエレメントに、前記新たなエレメントを子エレメントとしてリンクさせ、前記一致するワードを前記作業ストリングの開始部分から除去し、
    d)前記作業ストリングの残りの部分が空であるか否かを検査し、
    e)前記ステップd)の検査の結果、
    1)前記作業ストリングの残りの部分が空でないことを確認した場合、
    前記辞書のワードから、当該作業ストリングの残りの部分の一つ又は複数の開始キャラクタと一致するワードを検索し、
    i)前記ワードが前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタと一致することを確認した場合、
    新たなエレメントを作成して、当該一致するワードを当該新たなエレメントに対応付け、親エレメントとしての役割を果たす、前記入力ストリングのうち前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタに先行するワードに対応するエレメントに、当該新たなエレメントを子エレメントとしてリンクさせ、前記一致するワードを前記作業ストリングの残りの部分の開始部分から除去した後、前記d)以降のステップの実行を繰り返し、
    ii)前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタと一致するワードは前記辞書に存在しないことを確認した場合、
    前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタからキャラクタをコピーすることによって新たなワードを作成し、新たなエレメントを作成して、当該新たなワードを当該新たなエレメントに対応付け、親エレメントとしての役割を果たす、前記入力ストリングのうち前記作業ストリングの残りの部分の一つ又は複数の開始キャラクタに先行するワードに対応するエレメントに、当該新たなエレメントを子エレメントとしてリンクさせ、前記新たなワードを前記作業ストリングの残りの部分の開始部分から除去した後、前記ステップd)の実行を繰り返し、
    2)前記作業ストリングの残りの部分が空であることを確認した場合、
    前記新たなエレメントを前記入力ストリングの終結として前記終結リストに記憶して、前記入力ストリングを少なくとも1つのワードシーケンスに区分する作業を終了する
    ことを特徴とするシステム。
JP2000585784A 1998-11-30 1999-11-18 テキストの自動区分 Expired - Lifetime JP4302326B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98204038.8 1998-11-30
EP98204038 1998-11-30
PCT/EP1999/008942 WO2000033211A2 (en) 1998-11-30 1999-11-18 Automatic segmentation of a text

Publications (2)

Publication Number Publication Date
JP2002531892A JP2002531892A (ja) 2002-09-24
JP4302326B2 true JP4302326B2 (ja) 2009-07-22

Family

ID=8234407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000585784A Expired - Lifetime JP4302326B2 (ja) 1998-11-30 1999-11-18 テキストの自動区分

Country Status (7)

Country Link
US (1) US6374210B1 (ja)
JP (1) JP4302326B2 (ja)
KR (1) KR100749289B1 (ja)
CN (1) CN1143232C (ja)
BE (1) BE1012417A3 (ja)
TW (1) TW448381B (ja)
WO (1) WO2000033211A2 (ja)

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694055B2 (en) 1998-07-15 2004-02-17 Microsoft Corporation Proper name identification in chinese
US6904402B1 (en) * 1999-11-05 2005-06-07 Microsoft Corporation System and iterative method for lexicon, segmentation and language model joint optimization
US7403888B1 (en) * 1999-11-05 2008-07-22 Microsoft Corporation Language input user interface
US6848080B1 (en) 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
US7047493B1 (en) 2000-03-31 2006-05-16 Brill Eric D Spell checker with arbitrary length string-to-string transformations to improve noisy channel spelling correction
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US7092871B2 (en) * 2000-07-20 2006-08-15 Microsoft Corporation Tokenizer for a natural language processing system
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US6934683B2 (en) * 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
DE10200704A1 (de) * 2001-08-24 2003-03-20 Jong Won Park Elektronisches Wörterbuchsystem mit Baumstruktur und dessen Ausgabe
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US7136803B2 (en) 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
AU2002320280A1 (en) * 2002-07-03 2004-01-23 Iotapi., Com, Inc. Text-machine code, system and method
US7003516B2 (en) * 2002-07-03 2006-02-21 Word Data Corp. Text representation and method
US7024408B2 (en) 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US7016895B2 (en) 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
US20040006547A1 (en) * 2002-07-03 2004-01-08 Dehlinger Peter J. Text-processing database
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US20040006459A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-searching system and method
US20040054520A1 (en) * 2002-07-05 2004-03-18 Dehlinger Peter J. Text-searching code, system and method
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
US6823493B2 (en) * 2003-01-23 2004-11-23 Aurilab, Llc Word recognition consistency check and error correction system and method
US7493251B2 (en) * 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation
US7890852B2 (en) 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
US20060101018A1 (en) * 2004-11-08 2006-05-11 Mazzagatti Jane C Method for processing new sequences being recorded into an interlocking trees datastore
US20070162272A1 (en) * 2004-01-16 2007-07-12 Nec Corporation Text-processing method, program, program recording medium, and device thereof
US7424421B2 (en) * 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
JP4301102B2 (ja) * 2004-07-22 2009-07-22 ソニー株式会社 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US20060047656A1 (en) * 2004-09-01 2006-03-02 Dehlinger Peter J Code, system, and method for retrieving text material from a library of documents
US7539611B1 (en) * 2004-11-19 2009-05-26 Wyckoff Richard O Method of identifying and highlighting text
CN100530171C (zh) * 2005-01-31 2009-08-19 日电(中国)有限公司 字典学习方法和字典学习装置
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US7584093B2 (en) * 2005-04-25 2009-09-01 Microsoft Corporation Method and system for generating spelling suggestions
US8170289B1 (en) * 2005-09-21 2012-05-01 Google Inc. Hierarchical alignment of character sequences representing text of same source
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US7957953B2 (en) 2005-10-03 2011-06-07 Microsoft Corporation Weighted linear bilingual word alignment model
US8321220B1 (en) * 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
MX2008010554A (es) 2006-02-17 2008-10-29 Lumex As Metodo y sistema para la verificacion de palabras reconocidas de manera incierta en un sistema ocr.
US7831911B2 (en) 2006-03-08 2010-11-09 Microsoft Corporation Spell checking system including a phonetic speller
US9772981B2 (en) * 2006-03-29 2017-09-26 EMC IP Holding Company LLC Combined content indexing and data reduction
CN101075230B (zh) * 2006-05-18 2011-11-16 中国科学院自动化研究所 一种基于语块的中文机构名翻译方法及装置
US20080065370A1 (en) * 2006-09-11 2008-03-13 Takashi Kimoto Support apparatus for object-oriented analysis and design
US8428932B2 (en) * 2006-12-13 2013-04-23 Nathan S. Ross Connected text data stream comprising coordinate logic to identify and validate segmented words in the connected text
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
US8631005B2 (en) * 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
KR20100029221A (ko) * 2007-06-01 2010-03-16 구글 인코포레이티드 명칭 엔터티와 신규 단어를 검출하는 것
CN101114282B (zh) * 2007-07-12 2010-05-26 华为技术有限公司 一种分词处理方法及设备
US8014604B2 (en) * 2008-04-16 2011-09-06 International Business Machines Corporation OCR of books by word recognition
US8666729B1 (en) * 2010-02-10 2014-03-04 West Corporation Processing natural language grammar
US8738360B2 (en) 2008-06-06 2014-05-27 Apple Inc. Data detection of a character sequence having multiple possible data types
US8311806B2 (en) * 2008-06-06 2012-11-13 Apple Inc. Data detection in a sequence of tokens using decision tree reductions
EP2144189A3 (en) 2008-07-10 2014-03-05 Samsung Electronics Co., Ltd. Method for recognizing and translating characters in camera-based image
KR101588890B1 (ko) * 2008-07-10 2016-01-27 삼성전자주식회사 카메라 기반 영상의 문자 인식 및 번역 방법
US8301437B2 (en) 2008-07-24 2012-10-30 Yahoo! Inc. Tokenization platform
CN101676898B (zh) * 2008-09-17 2011-12-07 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
US20140372119A1 (en) * 2008-09-26 2014-12-18 Google, Inc. Compounded Text Segmentation
US8296125B2 (en) * 2008-10-17 2012-10-23 International Business Machines Corporation Translating source locale input string to target locale output string
CN101430680B (zh) 2008-12-31 2011-01-19 阿里巴巴集团控股有限公司 一种无词边界标记语言文本的分词序列选择方法及系统
US8527270B2 (en) 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) * 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8977538B2 (en) 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
CN102819524B (zh) * 2011-09-08 2015-06-03 金蝶软件(中国)有限公司 基于关键字的字符序列分割方法及装置
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
US8850350B2 (en) 2012-10-16 2014-09-30 Google Inc. Partial gesture text entry
US8819574B2 (en) * 2012-10-22 2014-08-26 Google Inc. Space prediction for text input
CN103870442A (zh) * 2012-12-17 2014-06-18 鸿富锦精密工业(深圳)有限公司 中文简繁体转换系统及方法
US8832589B2 (en) 2013-01-15 2014-09-09 Google Inc. Touch keyboard using language and spatial models
CN104076940A (zh) * 2013-03-27 2014-10-01 北京千橡网景科技发展有限公司 一种辅助输入方法和设备
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US10216783B2 (en) * 2014-10-02 2019-02-26 Microsoft Technology Licensing, Llc Segmenting data with included separators
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
JP6631930B2 (ja) * 2017-02-07 2020-01-15 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
CN107451127B (zh) * 2017-07-04 2020-11-06 广东小天才科技有限公司 一种基于图像的单词翻译方法及系统、移动设备
US10866928B2 (en) * 2018-09-10 2020-12-15 Netapp, Inc. Methods for optimized variable-size deduplication using two stage content-defined chunking and devices thereof
CN110020422B (zh) * 2018-11-26 2020-08-04 阿里巴巴集团控股有限公司 特征词的确定方法、装置和服务器
US10943143B2 (en) * 2018-12-28 2021-03-09 Paypal, Inc. Algorithm for scoring partial matches between words
CN110069624B (zh) * 2019-04-28 2021-05-04 北京小米智能科技有限公司 文本处理方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268840A (en) * 1992-04-30 1993-12-07 Industrial Technology Research Institute Method and system for morphologizing text
US5448474A (en) 1993-03-03 1995-09-05 International Business Machines Corporation Method for isolation of Chinese words from connected Chinese text
JP2583386B2 (ja) * 1993-03-29 1997-02-19 日本電気株式会社 キーワード自動抽出装置
US5806021A (en) * 1995-10-30 1998-09-08 International Business Machines Corporation Automatic segmentation of continuous text using statistical approaches
US5963893A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Identification of words in Japanese text by a computer system
JP2001505330A (ja) * 1996-08-22 2001-04-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ テキストストリーム中の単語の切れ目を与える方法及び装置

Also Published As

Publication number Publication date
KR20010040499A (ko) 2001-05-15
JP2002531892A (ja) 2002-09-24
WO2000033211A3 (en) 2000-09-08
KR100749289B1 (ko) 2007-08-14
BE1012417A3 (nl) 2000-10-03
WO2000033211A2 (en) 2000-06-08
CN1328672A (zh) 2001-12-26
CN1143232C (zh) 2004-03-24
US6374210B1 (en) 2002-04-16
TW448381B (en) 2001-08-01

Similar Documents

Publication Publication Date Title
JP4302326B2 (ja) テキストの自動区分
US10552533B2 (en) Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US6983239B1 (en) Method and apparatus for embedding grammars in a natural language understanding (NLU) statistical parser
Schuster et al. Japanese and korean voice search
US5680511A (en) Systems and methods for word recognition
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
US7412093B2 (en) Hybrid apparatus for recognizing answer type
EP1217533A2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
Hakkinen et al. N-gram and decision tree based language identification for written words
EP2315134A1 (en) Search device, search index creating device, and search system
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Chien et al. A best-first language processing model integrating the unification grammar and markov language model for speech recognition applications
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2008242607A (ja) 言語処理結果から妥当な候補を選択する装置、方法およびプログラム
JP4059501B2 (ja) 自然語辞書更新装置
Gao et al. Long distance dependency in language modeling: an empirical study
Jardino et al. A first evaluation campaign for language models
KR100306205B1 (ko) 발음 접속 그래프를 이용한 tts 처리 방법 및 연속 음성 인식 방법
Schneider A lexically-intensive algorithm for domain-specific knowlegde acquisition
Marek Phonological changes between Old and Middle English (an algorithmic approach)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070829

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071225

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080325

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080401

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090326

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090422

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4302326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120501

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130501

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term