JP5379155B2 - Cjk名前検出 - Google Patents
Cjk名前検出 Download PDFInfo
- Publication number
- JP5379155B2 JP5379155B2 JP2010536305A JP2010536305A JP5379155B2 JP 5379155 B2 JP5379155 B2 JP 5379155B2 JP 2010536305 A JP2010536305 A JP 2010536305A JP 2010536305 A JP2010536305 A JP 2010536305A JP 5379155 B2 JP5379155 B2 JP 5379155B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- annotated
- corpus
- model
- gram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000004590 computer program Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 230000010365 information processing Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 claims 1
- 238000012549 training Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 19
- 230000011218 segmentation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000000638 solvent extraction Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
中国語の一部の単語は、人の名前又は通常の単語のどちらでもあり得る。例えば、
Pname(W, context) = Pname(prefix)Pname(W | prefix)Pname(suffix | W, prefix).
Pname(W, context)は、以下のようにさらに近似することができる。
Pname(prefix)Pname(family_name, given name | prefix)Pname(suffix | family_name, given_name)Pname 式(1)
加えて、結合確率P(w = NOTNAME, context)を同様に以下のように近似することができる。
Pnotname(prefix)Pnotname (family_name, given_name | prefix)Pnotname (suffix | family_name, given_name) 式(2)
図2は、未加工名前検出モデル206の例の生成を図示したブロック図200である。便宜上、未加工名前検出モデル206の生成は、生成を実行するシステムに関して説明される。
図3は、名前検出モデル314の例の生成を図示したブロック図300である。注釈プロセス316(例えば、未加工名前検出モデル206によって実行される)が、拡張名前検出モデルを生成するために、注釈のないデータに適用される。準構造化データ302及び大規模な注釈のないコーパス308を、注釈のないデータとして使用することができる。
図4は、例の名前検出モデル314のコンポーネントを図示したブロック図である。名前検出モデル314は、名前モデル402と、非名前モデル404と、言語モデル406とを具備している。
名前304を特定するn-グラムを含んでいる準構造化データのサブセットと、名前310を特定するn-グラムを含んでいる大規模な注釈付コーパスデータのセットとを使用して、名前モデル402を導出する。システムは、姓および名を含むn-グラムが名前を特定する確率、又は、Pname(family_name, given_name)を決定するために、これらのデータのセットを使用する。
名前を特定しないnグラムを含んでいる準構造化データのサブセットを使用して、非名前モデル404を導出する。システムは、姓および名を含むn-グラムが名前を特定しない確率、又は、Pnotname(family_name, given_name)を決定するために、このデータのサブセットを使用する。
大規模な注釈付データ(例えば、310及び312)のセットを使用して、言語モデル406を導出する。システムは、コンテキストを使用することで確率(n-グラムが名前を特定するか、または名前を特定しない)を決定するために、これらのデータのセットを使用する。特に、システムは、名前を伴う言語サブモデルを導出するために、確率(接尾語が名前候補を付与された名前を特定し、かつ、名前候補が接頭語を付与された名前を特定する)、又は、Pname(suffix | name)およびPname(name | prefix)を決定する。
名前モデルおよび言語モデルからの確率評価を使用して、P(NAME | context)を決定する。例えば、文字シーケンスが「c1 c2 c3 c4 c5 c6 c7」であり、かつ、「c3 c4 c5」が名前である場合、次いで、「c3 c4 c5」がコンテキストを付与された名前である(即ち、接頭語が「c1 c2」であり、かつ、接尾語が「c6 c7」である)確率、又は、P(NAME | context)は、上記した式(1)から導出することができる。P(NAME | context)は、以下として表現することができる。
Pname(c3 | prefix)Pname(c4 c5 | c3)Pname(suffix | c3, c4 c5)
Pname(family_name | prefix)Pname(given_name | family_name)Pname(suffix | family_name, given_name)
ここで、
Pnotname(c3 | prefix)Pnotname(c4 c5 | c3)Pnotname(suffix | c4 c5)
Pnotname(family_name | prefix)Pnotname(given_name |family_name)Pnotname(suffix | family_name, given_name)
一部の実施例では、名前検出モデル314をさらに使用して、準構造化データ302と大規模な注釈のないコーパス308とを、注釈付準構造化データ(304及び306)と大規模な注釈付コーパス(310及び312)とに分離する。例えば、図3では、名前検出モデル314は、注釈プロセス316で使用されて、準構造化データ302と大規模な注釈のないコーパス308とを分離する。一部の実施例では、これらの新しいトレーニングデータのセットを使用して、より改良された名前検出モデルを生成する。より改良された名前検出モデルは、名前を特定するか、または名前を特定しないn-グラムの確率評価を導出するために、より大規模なトレーニングデータの使用によって、未加工名前検出モデルより広い適用範囲を有する。
相対度数は、特定の名前(例えば、トレーニングデータにおいて低い出現頻度を有する疎な名前、疎な姓、または外国人の名前)に対して低い場合がある。その結果、対応する確率評価は不正確であり得る。これは、追加的な疎データ問題をもたらす。したがって、平滑化技術を使用して、低頻度、または疎な名前を計上することができる。トレーニングデータに出現する文字シーケンスの頻度がしきい値より低い場合、平滑化技術を使用することができる。
一部の実施例では、出現する名前の確率は、出現する姓および出現する名の確率から独立している。例えば、「y」が姓「x」に対する名である場合、次いで、名前は「xy」である。その上、「z」は疎な姓である。名前「zy」は疎な姓「z」及び名「y」を表し、ここで、疎な姓「z」は、サンプリングされなかったか、または低頻度でサンプリングされる(例えば、指定されたしきい値頻度より低い)。1実施例では、システムは、「zy」の確率を近似するために、「xy」の確率を使用する。特に、「x」が姓であるというイベントと、「y」が名であるというイベントとの確率は、独立して扱われる。
BackoffWeight(family_name, given_name)Pnotname(suffix | all_family_names, given_name).
一部の実施例では、すべての疎な姓の確率は、単一の疎な姓の確率のための置換として使用される。例えば、「a」は名であり、かつ、「b」は姓である。コンテキストを付与された出現する名前の確率を、P(a | b)P(b | context)によって表すことができる。「b」が疎な姓である場合、確率P(a | b)は不正確である場合がある。この実施例では、所定のコンテキストで出現する名前の確率は、確率(すべての疎な姓がコンテキストを付与されたトレーニングデータにおいて出現する)によって多重化されたすべての疎な姓を付与されたトレーニングデータにおいて「a」が出現する確率、又は、
P(a | all_sparse_family_name)P(b | all_sparse_family)P(all_sparse_family_name | context)
を使用することによってより正確に表される。
外国人の名前(例えば、翻訳された名前)の相対度数も低く、不正確な確率評価をもたらす。したがって、外国人の名前検出モデルを、名前検出モデル314を生成するステップに関して上記した同じステップに従って、生成することができる。特に、未加工外国人の名前検出モデルは、未加工名前検出モデル206を生成するステップと同じように、外国人の姓の事前に定義されたコレクションから生成される。未加工外国人の名前検出モデルを他のデータ(例えば、大規模な注釈のないデータおよび準構造化データ)に適用して、名前検出モデル314を生成するステップと同じように、外国人の名前検出モデルを生成することができる。
n-グラムの所定の入力シーケンスに対して名前を検出するために、名前検出モデルを使用するとき、名前を特定するか、または名前を特定しないn-グラムの確率評価を使用して、文字シーケンスを単語に区分し、かつ、同時に、名前を検出する。
図7は、CJK名前検出の例のシステム700である。データ処理装置710は、検出プログラム720を含む、ハードウェア/ファームウェア、オペレーティングシステム、および1又は複数のプログラムを含むことができる。検出プログラム720は、本明細書に記載されたオペレーションを実行するために、データ処理装置710に関連して、動作する。その結果、検出プログラム720は、1又は複数のプロセッサおよびコンピュータ可読媒体(例えば、メモリ)を組み合わせて、システム700の1又は複数の構造上のコンポーネントを表す。
204 姓のコレクション
206 名のコレクション
402 名前モデル
404 非名前モデル
406 言語モデル
Claims (30)
- 各ステップがコンピュータによって実行されるコンピュータ・ソフトウェアによる情報処理方法であって、
姓のコレクションと、n-グラムのコレクションを含む注釈付コーパスとを使用することで、未加工名前検出モデルを生成するステップと、
前記未加工名前検出モデルを準構造化データのコレクションに適用して、注釈付準構造化データを形成するステップと、
前記未加工名前検出モデルを大規模な注釈のないコーパスに適用して、大規模な注釈付コーパスデータを形成するステップと、
名前検出モデルを生成するステップと
を具備し、
各n-グラムは、前記注釈付コーパスにおいて名前として出現することの対応する確率を有し、
前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記大規模な注釈付コーパスデータは、大規模な注釈のないコーパスの名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記名前検出モデルを生成するステップは、
名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスデータを使用することで名前モデルを導出するステップと、
名前を特定しない前記注釈付準構造化データを使用することで非名前モデルを導出するステップと、
前記大規模な注釈付コーパスを使用することで言語モデルを導出するステップと
を具備することを特徴とする方法。 - 前記名前検出モデルを前記準構造化データのコレクションに適用して、前記注釈付準構造化データを形成するステップと、
前記名前検出モデルを前記大規模な注釈のないコーパスに適用して、前記大規模な注釈付コーパスデータを形成するステップと、
改良された名前検出モデルを生成するステップと
をさらに具備し、
前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記大規模な注釈付コーパスデータは、大規模な注釈のないコーパスの名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記改良された名前検出モデルを生成するステップは、
名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスデータを使用することで改良された名前モデルを導出するステップと、
名前を特定しない前記注釈付準構造化データを使用することで改良された非名前モデルを導出するステップと、
前記大規模な注釈付コーパスを使用することで改良された言語モデルを導出するステップと
を具備することを特徴とする請求項1に記載の方法。 - 前記名前モデルは、名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスからのn-グラムのコレクションを具備し、
各n-グラムは、左の文字として姓、および右のコンテキストとして名を含み、かつ、 各n-グラムは、名前を特定することの対応する確率を有することを特徴とする請求項1に記載の方法。 - 前記非名前モデルは、名前を特定しない前記注釈付準構造化データからのn-グラムのコレクションを具備し、
各n-グラムは、左の文字として姓、および右のコンテキストとして名を含み、かつ、 各n-グラムは、名前を特定しないことの対応する確率を有することを特徴とする請求項1に記載の方法。 - 前記未加工名前モデルは、前記注釈付コーパスからのn-グラムのコレクションを具備し、
各n-グラムは、前記姓のコレクションからの姓である左の文字を含み、かつ、
各n-グラムは、前記注釈付コーパスにおける前記名前の相対度数に従って、名前を特定することの対応する確率を有することを特徴とする請求項1に記載の方法。 - 前記未加工名前モデルは、外国人の姓のコレクションを使用することで生成されることを特徴とする請求項1に記載の方法。
- 前記姓のコレクションは、複数の疎な姓を含み、かつ、
前記未加工名前検出モデルは、疎な姓である左の文字を含んでいる、名前を特定する各n-グラムの確率を特定するために、複数の疎な姓のうちの特定の疎な姓の計算された確率の代わりに、すべての疎な姓の単一の確率を使用することを特徴とする請求項1に記載の方法。 - 前記姓のコレクションは、複数の外国人の姓を含むことを特徴とする請求項1に記載の方法。
- 複数の文字を含むストリングを受信するステップと、
前記ストリングの特定のシーケンスが名前を特定する確率を計算するステップと
をさらに具備し、
前記名前は姓および名を含み、
前記確率を計算するステップは、コーパスにおいて前記特定のシーケンスの頻度がしきい値より少ないとき、名を表す前記シーケンスの部分があらゆる姓と共に出現する相対度数と、前記姓を表す前記シーケンスの部分の前記相対度数との関数として、前記特定のシーケンスが名前を特定する確率を決定するステップを含むことを特徴とする請求項1に記載の方法。 - ユーザ入力データを受信するステップと、
前記未加工名前検出モデルを前記ユーザ入力データに適用して、注釈付ユーザ入力データを形成するステップと
をさらに具備し、
前記注釈付ユーザ入力データは、名前を特定するn-グラム、および名前を特定しないn-グラムを特定し、
前記名前検出モデルを生成するステップは、
名前を特定する前記注釈付ユーザ入力データを使用することで前記名前モデルを導出するステップと、
名前を特定しない前記注釈付ユーザ入力データを使用することで前記非名前モデルを導出するステップと、
前記注釈付ユーザ入力データを使用することで言語モデルを導出するステップと
をさらに具備することを特徴とする請求項1に記載の方法。 - コンピュータプログラムであって、
コンピュータ可読媒体上にコード化され、
姓のコレクションと、n-グラムのコレクションを含む注釈付コーパスとを使用することで、未加工名前検出モデルを生成するステップと、
前記未加工名前検出モデルを準構造化データのコレクションに適用して、注釈付準構造化データを形成するステップと、
前記未加工名前検出モデルを大規模な注釈のないコーパスに適用して、大規模な注釈付コーパスデータを形成するステップと、
名前検出モデルを生成するステップと
を具備するオペレーションをデータ処理装置に実行させ、
各n-グラムは、前記注釈付コーパスにおいて名前として出現することの対応する確率を有し、
前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記大規模な注釈付コーパスデータは、大規模な注釈のないコーパスの名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記名前検出モデルを生成するステップは、
名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスデータを使用することで名前モデルを導出するステップと、
名前を特定しない前記注釈付準構造化データを使用することで非名前モデルを導出するステップと、
前記大規模な注釈付コーパスを使用することで言語モデルを導出するステップと
を具備することを特徴とするコンピュータプログラム。 - 前記名前検出モデルを前記準構造化データのコレクションに適用して、前記注釈付準構造化データを形成するステップと、
前記名前検出モデルを前記大規模な注釈のないコーパスに適用して、前記大規模な注釈付コーパスデータを形成するステップと、
改良された名前検出モデルを生成するステップと
をさらに具備するオペレーションをデータ処理装置に実行させ、
前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記大規模な注釈付コーパスデータは、大規模な注釈のないコーパスの名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記改良された名前検出モデルを生成するステップは、
名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスデータを使用することで改良された名前モデルを導出するステップと、
名前を特定しない前記注釈付準構造化データを使用することで改良された非名前モデルを導出するステップと、
前記大規模な注釈付コーパスを使用することで改良された言語モデルを導出するステップと
を具備することを特徴とする請求項11に記載のコンピュータプログラム。 - 前記名前モデルは、名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスからのn-グラムのコレクションを具備し、
各n-グラムは、左の文字として姓、および右のコンテキストとして名を含み、かつ、 各n-グラムは、名前を特定することの対応する確率を有することを特徴とする請求項11に記載のコンピュータプログラム。 - 前記非名前モデルは、名前を特定しない前記注釈付準構造化データからのn-グラムのコレクションを具備し、
各n-グラムは、左の文字として姓、および右のコンテキストとして名を含み、かつ、 各n-グラムは、名前を特定しないことの対応する確率を有することを特徴とする請求項11に記載のコンピュータプログラム。 - 前記未加工名前モデルは、前記注釈付コーパスからのn-グラムのコレクションを具備し、
各n-グラムは、前記姓のコレクションからの姓である左の文字を含み、かつ、
各n-グラムは、前記注釈付コーパスにおける前記名前の相対度数に従って、名前を特定することの対応する確率を有することを特徴とする請求項11に記載のコンピュータプログラム。 - 前記未加工名前モデルは、外国人の姓のコレクションを使用することで生成されることを特徴とする請求項11に記載のコンピュータプログラム。
- 前記姓のコレクションは、複数の疎な姓を含み、かつ、
前記未加工名前検出モデルは、疎な姓である左の文字を含んでいる、名前を特定する各n-グラムの確率を特定するために、複数の疎な姓のうちの特定の疎な姓の計算された確率の代わりに、すべての疎な姓の単一の確率を使用することを特徴とする請求項11に記載のコンピュータプログラム。 - 前記姓のコレクションは、複数の外国人の姓を含むことを特徴とする請求項11に記載のコンピュータプログラム。
- 複数の文字を含むストリングを受信するステップと、
前記ストリングの特定のシーケンスが名前を特定する確率を計算するステップと
をさらに具備するオペレーションをデータ処理装置に実行させ、
前記名前は姓および名を含み、
前記確率を計算するステップは、コーパスにおいて前記特定のシーケンスの頻度がしきい値より少ないとき、名を表す前記シーケンスの部分があらゆる姓と共に出現する相対度数と、前記姓を表す前記シーケンスの部分の前記相対度数との関数として、前記特定のシーケンスが名前を特定する確率を決定するステップを含むことを特徴とする請求項11に記載のコンピュータプログラム。 - ユーザ入力データを受信するステップと、
前記未加工名前検出モデルを前記ユーザ入力データに適用して、注釈付ユーザ入力データを形成するステップと
をさらに具備するオペレーションをデータ処理装置に実行させ、
前記注釈付ユーザ入力データは、名前を特定するn-グラム、および名前を特定しないn-グラムを特定し、
前記名前検出モデルを生成するステップは、
名前を特定する前記注釈付ユーザ入力データを使用することで前記名前モデルを導出するステップと、
名前を特定しない前記注釈付ユーザ入力データを使用することで前記非名前モデルを導出するステップと、
前記注釈付ユーザ入力データを使用することで言語モデルを導出するステップと
をさらに具備することを特徴とする請求項11に記載のコンピュータプログラム。 - 姓のコレクションと、n-グラムのコレクションを含む注釈付コーパスとを含む、未加工名前検出モデルと、
前記未加工名前検出モデルを準構造化データのコレクションに適用することによって形成された、注釈付準構造化データと、
前記未加工名前検出モデルを大規模な注釈のないコーパスのコレクションに適用することによって形成された、大規模な注釈付コーパスデータと、
名前検出モデルと、
少なくとも1つのプロセッサと、
少なくとも1つのコンピュータ可読媒体と
を備え、
各n-グラムは、前記注釈付コーパスにおいて名前として出現することの対応する確率を有し、
前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記大規模な注釈付コーパスデータは、大規模な注釈のないコーパスの名前を特定するn-グラムと、名前を特定しないn-グラムとを特定し、
前記名前検出モデルは、
名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスデータから導出された、名前モデルと、
名前を特定しない前記注釈付準構造化データから導出された、非名前モデルと、
前記大規模な注釈付コーパスから導出された、言語モデルと
を具備し、
前記各モデルは、前記プロセッサによって生成され、
前記各データは、前記コンピュータ可読媒体に格納されることを特徴とするシステム。 - 前記名前検出モデルは、前記準構造化データのコレクションに適用されて、前記注釈付準構造化データを形成し、
前記名前検出モデルは、前記大規模な注釈のないコーパスに適用されて、前記大規模な注釈付コーパスデータを形成し、
前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、
前記大規模な注釈付コーパスデータは、大規模な注釈のないコーパスの名前を特定するn-グラムと名前を特定しないn-グラムとを特定し、かつ、
名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスデータから導出された、改良された名前モデルと、
名前を特定しない前記注釈付準構造化データから導出された、改良された非名前モデルと、
前記大規模な注釈付コーパスから導出された、改良された言語モデルと
を具備した改良された名前検出モデルをさらに具備することを特徴とする請求項21に記載のシステム。 - 前記名前モデルは、名前を特定する前記注釈付準構造化データ、および名前を特定する前記大規模な注釈付コーパスからのn-グラムのコレクションを具備し、
各n-グラムは、左の文字として姓、および右のコンテキストとして名を含み、かつ、 各n-グラムは、名前を特定することの対応する確率を有することを特徴とする請求項21に記載のシステム。 - 前記非名前モデルは、名前を特定しない前記注釈付準構造化データからのn-グラムのコレクションを具備し、
各n-グラムは、左の文字として姓、および右のコンテキストとして名を含み、かつ、 各n-グラムは、名前を特定しないことの対応する確率を有することを特徴とする請求項21に記載のシステム。 - 前記未加工名前モデルは、前記注釈付コーパスからのn-グラムのコレクションを具備し、
各n-グラムは、前記姓のコレクションからの姓である左の文字を含み、かつ、
各n-グラムは、前記注釈付コーパスにおける前記名前の相対度数に従って、名前を特定することの対応する確率を有することを特徴とする請求項21に記載のシステム。 - 前記未加工名前モデルは、外国人の姓のコレクションを使用することで生成されることを特徴とする請求項21に記載のシステム。
- 前記姓のコレクションは、複数の疎な姓を含み、かつ、
前記未加工名前検出モデルは、疎な姓である左の文字を含んでいる、名前を特定する各n-グラムの確率を特定するために、複数の疎な姓のうちの特定の疎な姓の計算された確率の代わりに、すべての疎な姓の単一の確率を使用することを特徴とする請求項21に記載のシステム。 - 前記姓のコレクションは、複数の外国人の姓を含むことを特徴とする請求項21に記載のシステム。
- 複数の文字を含むストリングを受信するステップと、
前記ストリングの特定のシーケンスが名前を特定する確率を計算するステップと
をさらに具備するオペレーションを実行するように構成された1又は複数のコンピュータを備え、
前記名前は姓および名を含み、
前記確率を計算するステップは、コーパスにおいて前記特定のシーケンスの頻度がしきい値より少ないとき、名を表す前記シーケンスの部分があらゆる姓と共に出現する相対度数と、前記姓を表す前記シーケンスの部分の前記相対度数との関数として、前記特定のシーケンスが名前を特定する確率を決定するステップを含むことを特徴とする請求項21に記載のシステム。 - ユーザ入力データを受信するステップと、
前記未加工名前検出モデルを前記ユーザ入力データに適用して、注釈付ユーザ入力データを形成するステップと
をさらに具備し、
前記注釈付ユーザ入力データは、名前を特定するn-グラム、および名前を特定しないn-グラムを特定し、
前記名前検出モデルを生成するステップは、
名前を特定する前記注釈付ユーザ入力データを使用することで前記名前モデルを導出するステップと、
名前を特定しない前記注釈付ユーザ入力データを使用することで前記非名前モデルを導出するステップと、
前記注釈付ユーザ入力データを使用することで言語モデルを導出するステップと
をさらに具備するオペレーションを実行するように構成された1又は複数のコンピュータを備えることを特徴とする請求項21に記載のシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2007/003464 WO2009070931A1 (en) | 2007-12-06 | 2007-12-06 | Cjk name detection |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013004333A Division JP5770753B2 (ja) | 2013-01-15 | 2013-01-15 | Cjk名前検出 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011505638A JP2011505638A (ja) | 2011-02-24 |
JP5379155B2 true JP5379155B2 (ja) | 2013-12-25 |
Family
ID=40717264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010536305A Active JP5379155B2 (ja) | 2007-12-06 | 2007-12-06 | Cjk名前検出 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8478787B2 (ja) |
EP (1) | EP2227757A4 (ja) |
JP (1) | JP5379155B2 (ja) |
KR (1) | KR101453937B1 (ja) |
CN (1) | CN101939741B (ja) |
WO (1) | WO2009070931A1 (ja) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8639510B1 (en) | 2007-12-24 | 2014-01-28 | Kai Yu | Acoustic scoring unit implemented on a single FPGA or ASIC |
US8352265B1 (en) | 2007-12-24 | 2013-01-08 | Edward Lin | Hardware implemented backend search engine for a high-rate speech recognition system |
US8463610B1 (en) | 2008-01-18 | 2013-06-11 | Patrick J. Bourke | Hardware-implemented scalable modular engine for low-power speech recognition |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
CN102193709B (zh) * | 2010-03-01 | 2015-05-13 | 深圳市世纪光速信息技术有限公司 | 一种字符输入方法及装置 |
US9535895B2 (en) * | 2011-03-17 | 2017-01-03 | Amazon Technologies, Inc. | n-Gram-based language prediction |
EP2592570A3 (en) * | 2011-11-08 | 2015-04-08 | VeriSign, Inc. | Pronounceable domain names |
US9348479B2 (en) | 2011-12-08 | 2016-05-24 | Microsoft Technology Licensing, Llc | Sentiment aware user interface customization |
US9378290B2 (en) | 2011-12-20 | 2016-06-28 | Microsoft Technology Licensing, Llc | Scenario-adaptive input method editor |
US8880989B2 (en) | 2012-01-30 | 2014-11-04 | Microsoft Corporation | Educating users and enforcing data dissemination policies |
US9087039B2 (en) | 2012-02-07 | 2015-07-21 | Microsoft Technology Licensing, Llc | Language independent probabilistic content matching |
CN110488991A (zh) | 2012-06-25 | 2019-11-22 | 微软技术许可有限责任公司 | 输入法编辑器应用平台 |
US8959109B2 (en) | 2012-08-06 | 2015-02-17 | Microsoft Corporation | Business intelligent in-document suggestions |
US9767156B2 (en) | 2012-08-30 | 2017-09-19 | Microsoft Technology Licensing, Llc | Feature-based candidate selection |
CN103065630B (zh) * | 2012-12-28 | 2015-01-07 | 科大讯飞股份有限公司 | 用户个性化信息语音识别方法及系统 |
EP3030982A4 (en) | 2013-08-09 | 2016-08-03 | Microsoft Technology Licensing Llc | INPUT PROCESSORS EDITOR WITH LANGUAGE SUPPORT |
CN105320663A (zh) * | 2014-06-11 | 2016-02-10 | 安凯(广州)微电子技术有限公司 | 一种控制方法、装置和智能机器 |
CN105988993B (zh) * | 2015-03-06 | 2019-05-07 | 阿里巴巴集团控股有限公司 | 检测网站上注册的姓名合理性的方法和装置 |
US10049099B2 (en) * | 2015-04-10 | 2018-08-14 | Facebook, Inc. | Spell correction with hidden markov models on online social networks |
US9898452B2 (en) | 2015-10-16 | 2018-02-20 | International Business Machines Corporation | Annotation data generation and overlay for enhancing readability on electronic book image stream service |
CN106874256A (zh) * | 2015-12-11 | 2017-06-20 | 北京国双科技有限公司 | 识别领域命名实体的方法及装置 |
US10311860B2 (en) * | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN107038157B (zh) * | 2017-05-05 | 2020-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的识别错误发现方法、装置及存储介质 |
JP6781905B1 (ja) * | 2019-07-26 | 2020-11-11 | 株式会社Fronteo | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
US12118983B2 (en) * | 2021-04-02 | 2024-10-15 | Samsung Electronics Co., Ltd. | Electronic device and operation method thereof |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694055B2 (en) * | 1998-07-15 | 2004-02-17 | Microsoft Corporation | Proper name identification in chinese |
US6311152B1 (en) * | 1999-04-08 | 2001-10-30 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
US7333966B2 (en) | 2001-12-21 | 2008-02-19 | Thomson Global Resources | Systems, methods, and software for hyperlinking names |
US7136805B2 (en) * | 2002-06-11 | 2006-11-14 | Fuji Xerox Co., Ltd. | System for distinguishing names of organizations in Asian writing systems |
AU2003288887A1 (en) * | 2003-12-31 | 2005-07-21 | Agency For Science, Technology And Research | System for recognising and classifying named entities |
US8280719B2 (en) * | 2005-05-05 | 2012-10-02 | Ramp, Inc. | Methods and systems relating to information extraction |
US7464078B2 (en) | 2005-10-25 | 2008-12-09 | International Business Machines Corporation | Method for automatically extracting by-line information |
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
US8185376B2 (en) | 2006-03-20 | 2012-05-22 | Microsoft Corporation | Identifying language origin of words |
US20080046824A1 (en) * | 2006-08-16 | 2008-02-21 | Microsoft Corporation | Sorting contacts for a mobile computer device |
KR20100029221A (ko) * | 2007-06-01 | 2010-03-16 | 구글 인코포레이티드 | 명칭 엔터티와 신규 단어를 검출하는 것 |
-
2007
- 2007-12-06 US US12/746,465 patent/US8478787B2/en active Active
- 2007-12-06 WO PCT/CN2007/003464 patent/WO2009070931A1/en active Application Filing
- 2007-12-06 EP EP07845824.7A patent/EP2227757A4/en not_active Ceased
- 2007-12-06 KR KR1020107012445A patent/KR101453937B1/ko active IP Right Grant
- 2007-12-06 CN CN2007801022966A patent/CN101939741B/zh active Active
- 2007-12-06 JP JP2010536305A patent/JP5379155B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20100306139A1 (en) | 2010-12-02 |
CN101939741A (zh) | 2011-01-05 |
KR20100105586A (ko) | 2010-09-29 |
EP2227757A4 (en) | 2018-01-24 |
KR101453937B1 (ko) | 2014-10-23 |
US8478787B2 (en) | 2013-07-02 |
WO2009070931A1 (en) | 2009-06-11 |
JP2011505638A (ja) | 2011-02-24 |
CN101939741B (zh) | 2013-03-20 |
EP2227757A1 (en) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5379155B2 (ja) | Cjk名前検出 | |
Han et al. | Lexical normalisation of short text messages: Makn sens a# twitter | |
US8731901B2 (en) | Context aware back-transliteration and translation of names and common phrases using web resources | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN102483743B (zh) | 对书写体系和语言的检测 | |
EP3136257A2 (en) | Document-specific gazetteers for named entity recognition | |
CN104679850B (zh) | 地址结构化方法及装置 | |
Gao et al. | Improved source-channel models for Chinese word segmentation | |
US20060253273A1 (en) | Information extraction using a trainable grammar | |
US20060277028A1 (en) | Training a statistical parser on noisy data by filtering | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
WO2012095696A2 (en) | Text segmentation with multiple granularity levels | |
KR20100135819A (ko) | 스케일된 확률들을 사용한 단어들의 분절 | |
WO2012027262A1 (en) | Parallel document mining | |
WO2018057427A1 (en) | Syntactic re-ranking of potential transcriptions during automatic speech recognition | |
Sun et al. | Capturing paradigmatic and syntagmatic lexical relations: Towards accurate Chinese part-of-speech tagging | |
JP5770753B2 (ja) | Cjk名前検出 | |
JP2022510818A (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
KR20120095914A (ko) | 입력 제안들을 생성 | |
Moore | Adaptive statistical class-based language modelling | |
CN103136190B (zh) | Cjk姓名检测 | |
Simunec et al. | N-gram Based Croatian Language Network | |
Kang et al. | A language independent n-gram model for word segmentation | |
CN115905297B (zh) | 用于检索数据的方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5379155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |