JP2013109364A - Cjk名前検出 - Google Patents
Cjk名前検出 Download PDFInfo
- Publication number
- JP2013109364A JP2013109364A JP2013004333A JP2013004333A JP2013109364A JP 2013109364 A JP2013109364 A JP 2013109364A JP 2013004333 A JP2013004333 A JP 2013004333A JP 2013004333 A JP2013004333 A JP 2013004333A JP 2013109364 A JP2013109364 A JP 2013109364A
- Authority
- JP
- Japan
- Prior art keywords
- name
- names
- characters
- detection model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】名前検出に関する実施例が提供される。方法は、姓のコレクションと、n-グラムのコレクションを含む注釈付コーパスとを使用することで、未加工名前検出モデルを生成するステップを含み、各n-グラムは、前記注釈付コーパスにおいて名前として出現することの対応する確率を有する。方法は、前記未加工名前検出モデルを準構造化データのコレクションに適用して、注釈付準構造化データを形成するステップと、前記未加工名前検出モデルを大規模な注釈のないコーパスに適用して、名前を特定する前記大規模な注釈のないコーパスのn-グラムと、名前を特定しないn-グラムとを特定する大規模な注釈付コーパスデータを形成するステップとを含み、前記注釈付準構造化データは、名前を特定するn-グラムと名前を特定しないn-グラムとを特定する。方法は、名前検出モデルを生成するステップを含む。
【選択図】図3
Description
中国語の一部の単語は、人の名前又は通常の単語のどちらでもあり得る。例えば、
Pname(W, context) = Pname(prefix)Pname(W | prefix)Pname(suffix | W, prefix).
Pname(W, context)は、以下のようにさらに近似することができる。
Pname(prefix)Pname(family_name, given name | prefix)Pname(suffix | family_name, given_name)Pname 式(1)
加えて、結合確率P(w = NOTNAME, context)を同様に以下のように近似することができる。
Pnotname(prefix)Pnotname (family_name, given_name | prefix)Pnotname (suffix | family_name, given_name) 式(2)
図2は、未加工名前検出モデル206の例の生成を図示したブロック図200である。便宜上、未加工名前検出モデル206の生成は、生成を実行するシステムに関して説明される。
図3は、名前検出モデル314の例の生成を図示したブロック図300である。注釈プロセス316(例えば、未加工名前検出モデル206によって実行される)が、拡張名前検出モデルを生成するために、注釈のないデータに適用される。準構造化データ302及び大規模な注釈のないコーパス308を、注釈のないデータとして使用することができる。
図4は、例の名前検出モデル314のコンポーネントを図示したブロック図である。名前検出モデル314は、名前モデル402と、非名前モデル404と、言語モデル406とを具備している。
名前304を特定するn-グラムを含んでいる準構造化データのサブセットと、名前310を特定するn-グラムを含んでいる大規模な注釈付コーパスデータのセットとを使用して、名前モデル402を導出する。システムは、姓および名を含むn-グラムが名前を特定する確率、又は、Pname(family_name, given_name)を決定するために、これらのデータのセットを使用する。
名前を特定しないnグラムを含んでいる準構造化データのサブセットを使用して、非名前モデル404を導出する。システムは、姓および名を含むn-グラムが名前を特定しない確率、又は、Pnotname(family_name, given_name)を決定するために、このデータのサブセットを使用する。
大規模な注釈付データ(例えば、310及び312)のセットを使用して、言語モデル406を導出する。システムは、コンテキストを使用することで確率(n-グラムが名前を特定するか、または名前を特定しない)を決定するために、これらのデータのセットを使用する。特に、システムは、名前を伴う言語サブモデルを導出するために、確率(接尾語が名前候補を付与された名前を特定し、かつ、名前候補が接頭語を付与された名前を特定する)、又は、Pname(suffix | name)およびPname(name | prefix)を決定する。
名前モデルおよび言語モデルからの確率評価を使用して、P(NAME | context)を決定する。例えば、文字シーケンスが「c1 c2 c3 c4 c5 c6 c7」であり、かつ、「c3 c4 c5」が名前である場合、次いで、「c3 c4 c5」がコンテキストを付与された名前である(即ち、接頭語が「c1 c2」であり、かつ、接尾語が「c6 c7」である)確率、又は、P(NAME | context)は、上記した式(1)から導出することができる。P(NAME | context)は、以下として表現することができる。
Pname(c3 | prefix)Pname(c4 c5 | c3)Pname(suffix | c3, c4 c5)
Pname(family_name | prefix)Pname(given_name | family_name)Pname(suffix | family_name, given_name)
ここで、
Pnotname(c3 | prefix)Pnotname(c4 c5 | c3)Pnotname(suffix | c4 c5)
Pnotname(family_name | prefix)Pnotname(given_name |family_name)Pnotname(suffix | family_name, given_name)
一部の実施例では、名前検出モデル314をさらに使用して、準構造化データ302と大規模な注釈のないコーパス308とを、注釈付準構造化データ(304及び306)と大規模な注釈付コーパス(310及び312)とに分離する。例えば、図3では、名前検出モデル314は、注釈プロセス316で使用されて、準構造化データ302と大規模な注釈のないコーパス308とを分離する。一部の実施例では、これらの新しいトレーニングデータのセットを使用して、より改良された名前検出モデルを生成する。より改良された名前検出モデルは、名前を特定するか、または名前を特定しないn-グラムの確率評価を導出するために、より大規模なトレーニングデータの使用によって、未加工名前検出モデルより広い適用範囲を有する。
相対度数は、特定の名前(例えば、トレーニングデータにおいて低い出現頻度を有する疎な名前、疎な姓、または外国人の名前)に対して低い場合がある。その結果、対応する確率評価は不正確であり得る。これは、追加的な疎データ問題をもたらす。したがって、平滑化技術を使用して、低頻度、または疎な名前を計上することができる。トレーニングデータに出現する文字シーケンスの頻度がしきい値より低い場合、平滑化技術を使用することができる。
一部の実施例では、出現する名前の確率は、出現する姓および出現する名の確率から独立している。例えば、「y」が姓「x」に対する名である場合、次いで、名前は「xy」である。その上、「z」は疎な姓である。名前「zy」は疎な姓「z」及び名「y」を表し、ここで、疎な姓「z」は、サンプリングされなかったか、または低頻度でサンプリングされる(例えば、指定されたしきい値頻度より低い)。1実施例では、システムは、「zy」の確率を近似するために、「xy」の確率を使用する。特に、「x」が姓であるというイベントと、「y」が名であるというイベントとの確率は、独立して扱われる。
BackoffWeight(family_name, given_name)Pnotname(suffix | all_family_names, given_name).
一部の実施例では、すべての疎な姓の確率は、単一の疎な姓の確率のための置換として使用される。例えば、「a」は名であり、かつ、「b」は姓である。コンテキストを付与された出現する名前の確率を、P(a | b)P(b | context)によって表すことができる。「b」が疎な姓である場合、確率P(a | b)は不正確である場合がある。この実施例では、所定のコンテキストで出現する名前の確率は、確率(すべての疎な姓がコンテキストを付与されたトレーニングデータにおいて出現する)によって多重化されたすべての疎な姓を付与されたトレーニングデータにおいて「a」が出現する確率、又は、
P(a | all_sparse_family_name)P(b | all_sparse_family)P(all_sparse_family_name | context)
を使用することによってより正確に表される。
外国人の名前(例えば、翻訳された名前)の相対度数も低く、不正確な確率評価をもたらす。したがって、外国人の名前検出モデルを、名前検出モデル314を生成するステップに関して上記した同じステップに従って、生成することができる。特に、未加工外国人の名前検出モデルは、未加工名前検出モデル206を生成するステップと同じように、外国人の姓の事前に定義されたコレクションから生成される。未加工外国人の名前検出モデルを他のデータ(例えば、大規模な注釈のないデータおよび準構造化データ)に適用して、名前検出モデル314を生成するステップと同じように、外国人の名前検出モデルを生成することができる。
n-グラムの所定の入力シーケンスに対して名前を検出するために、名前検出モデルを使用するとき、名前を特定するか、または名前を特定しないn-グラムの確率評価を使用して、文字シーケンスを単語に区分し、かつ、同時に、名前を検出する。
図7は、CJK名前検出の例のシステム700である。データ処理装置710は、検出プログラム720を含む、ハードウェア/ファームウェア、オペレーティングシステム、および1又は複数のプログラムを含むことができる。検出プログラム720は、本明細書に記載されたオペレーションを実行するために、データ処理装置710に関連して、動作する。その結果、検出プログラム720は、1又は複数のプロセッサおよびコンピュータ可読媒体(例えば、メモリ)を組み合わせて、システム700の1又は複数の構造上のコンポーネントを表す。
204 姓のコレクション
206 名のコレクション
402 名前モデル
404 非名前モデル
406 言語モデル
Claims (7)
- 文字の入力ストリングを受信するステップと、
名前検出モデルを複数の文字を有する前記入力ストリングに適用するステップと
を具備し、
前記名前検出モデルを適用するステップは、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定するステップと、
1又は複数の名前を潜在的に特定するとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出するステップと、
前記1又は複数の潜在的な名前を含んでいる、前記複数の文字の区分化を特定するステップと、
前記潜在的な1又は複数の名前を含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化より大きいとき、前記1又は複数の名前を含むとして、前記複数の文字を区分するステップと
を具備することを特徴とする方法。 - 前記複数の文字が1又は複数の名前を含むとして区分されるとき、1又は複数の名前を検出するステップをさらに具備することを特徴とする請求項2に記載の方法。
- 文字の入力ストリングを受信する手段と、
名前検出モデルを複数の文字を有する前記入力ストリングに適用する手段と
を備え、
前記名前検出モデルを適用する手段は、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定する手段と、
1又は複数の名前を潜在的に特定するとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出する手段と、
前記1又は複数の潜在的な名前を含んでいる、前記複数の文字の区分化を特定する手段と、
前記潜在的な1又は複数の名前を含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化より大きいとき、前記1又は複数の名前を含むとして、前記複数の文字を区分する手段と
を備えることを特徴とするシステム。 - コンピュータプログラム製品であって、
有形のプログラムキャリア上にコード化され、
文字の入力ストリングを受信するステップと、
名前検出モデルを複数の文字を有する前記入力ストリングに適用するステップと
を具備するオペレーションをデータ処理装置に実行させ、
前記名前検出モデルを適用するステップは、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定するステップと、
1又は複数の名前を潜在的に特定するとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出するステップと、
前記1又は複数の潜在的な名前を含んでいる、前記複数の文字の区分化を特定するステップと、
前記潜在的な1又は複数の名前を含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化より大きいとき、前記1又は複数の名前を含むとして、前記複数の文字を区分するステップと
を具備することを特徴とするコンピュータプログラム製品。 - 前記複数の文字が1又は複数の名前を含むとして区分されるとき、1又は複数の名前を検出するステップをさらに具備するオペレーションをデータ処理装置に実行させることを特徴とする請求項4に記載のコンピュータプログラム製品。
- システムであって、
文字の入力ストリングを受信するステップと、
名前検出モデルを複数の文字を有する前記入力ストリングに適用するステップと
を具備するオペレーションを実行するように構成された1又は複数のコンピュータを備え、
前記名前検出モデルを適用するステップは、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定するステップと、
1又は複数の名前を潜在的に特定するとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出するステップと、
前記1又は複数の潜在的な名前を含んでいる、前記複数の文字の区分化を特定するステップと、
前記潜在的な1又は複数の名前を含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化より大きいとき、前記1又は複数の名前を含むとして、前記複数の文字を区分するステップと
を具備することを特徴とするシステム。 - 前記複数の文字が1又は複数の名前を含むとして区分されるとき、1又は複数の名前を検出するステップをさらに具備するオペレーションを実行するように構成された1又は複数のコンピュータを備えることを特徴とする請求項6に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013004333A JP5770753B2 (ja) | 2013-01-15 | 2013-01-15 | Cjk名前検出 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013004333A JP5770753B2 (ja) | 2013-01-15 | 2013-01-15 | Cjk名前検出 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010536305A Division JP5379155B2 (ja) | 2007-12-06 | 2007-12-06 | Cjk名前検出 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109364A true JP2013109364A (ja) | 2013-06-06 |
JP5770753B2 JP5770753B2 (ja) | 2015-08-26 |
Family
ID=48706101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013004333A Active JP5770753B2 (ja) | 2013-01-15 | 2013-01-15 | Cjk名前検出 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5770753B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238409B2 (en) | 2017-09-29 | 2022-02-01 | Oracle International Corporation | Techniques for extraction and valuation of proficiencies for gap detection and remediation |
US11367034B2 (en) | 2018-09-27 | 2022-06-21 | Oracle International Corporation | Techniques for data-driven correlation of metrics |
US11467803B2 (en) | 2019-09-13 | 2022-10-11 | Oracle International Corporation | Identifying regulator and driver signals in data systems |
US11487729B2 (en) | 2017-12-18 | 2022-11-01 | Yahoo Japan Corporation | Data management device, data management method, and non-transitory computer readable storage medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721196A (ja) * | 1993-06-15 | 1995-01-24 | N T T Data Tsushin Kk | 固有名詞特定方法 |
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2004102856A (ja) * | 2002-09-12 | 2004-04-02 | Fuji Xerox Co Ltd | 形態素列処理装置および方法 |
JP2005092883A (ja) * | 2003-09-15 | 2005-04-07 | Microsoft Corp | 中国語の単語分割 |
JP2005539283A (ja) * | 2001-12-21 | 2005-12-22 | ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
JP2006031295A (ja) * | 2004-07-14 | 2006-02-02 | Internatl Business Mach Corp <Ibm> | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
CN101271449A (zh) * | 2007-03-19 | 2008-09-24 | 株式会社东芝 | 裁减词表和为汉字串注音的方法及装置 |
-
2013
- 2013-01-15 JP JP2013004333A patent/JP5770753B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0721196A (ja) * | 1993-06-15 | 1995-01-24 | N T T Data Tsushin Kk | 固有名詞特定方法 |
JP2005539283A (ja) * | 2001-12-21 | 2005-12-22 | ウエスト パブリッシング カンパニー,ディー.ビー.エー.ウエスト グループ | 名前をハイパーリンクするためのシステム、方法、及びソフトウェア |
JP2004046775A (ja) * | 2002-05-15 | 2004-02-12 | Nippon Telegr & Teleph Corp <Ntt> | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP2004102856A (ja) * | 2002-09-12 | 2004-04-02 | Fuji Xerox Co Ltd | 形態素列処理装置および方法 |
JP2005092883A (ja) * | 2003-09-15 | 2005-04-07 | Microsoft Corp | 中国語の単語分割 |
JP2006031295A (ja) * | 2004-07-14 | 2006-02-02 | Internatl Business Mach Corp <Ibm> | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
CN101271449A (zh) * | 2007-03-19 | 2008-09-24 | 株式会社东芝 | 裁减词表和为汉字串注音的方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238409B2 (en) | 2017-09-29 | 2022-02-01 | Oracle International Corporation | Techniques for extraction and valuation of proficiencies for gap detection and remediation |
US11487729B2 (en) | 2017-12-18 | 2022-11-01 | Yahoo Japan Corporation | Data management device, data management method, and non-transitory computer readable storage medium |
US11367034B2 (en) | 2018-09-27 | 2022-06-21 | Oracle International Corporation | Techniques for data-driven correlation of metrics |
US11467803B2 (en) | 2019-09-13 | 2022-10-11 | Oracle International Corporation | Identifying regulator and driver signals in data systems |
US12039287B2 (en) | 2019-09-13 | 2024-07-16 | Oracle International Corporation | Identifying regulator and driver signals in data systems |
Also Published As
Publication number | Publication date |
---|---|
JP5770753B2 (ja) | 2015-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5379155B2 (ja) | Cjk名前検出 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
Han et al. | Lexical normalisation of short text messages: Makn sens a# twitter | |
US9836453B2 (en) | Document-specific gazetteers for named entity recognition | |
US8731901B2 (en) | Context aware back-transliteration and translation of names and common phrases using web resources | |
US9454962B2 (en) | Sentence simplification for spoken language understanding | |
US20120047172A1 (en) | Parallel document mining | |
KR20100135819A (ko) | 스케일된 확률들을 사용한 단어들의 분절 | |
WO2012095696A2 (en) | Text segmentation with multiple granularity levels | |
KR20110083623A (ko) | 음역을 위한 기계 학습 | |
WO2018057427A1 (en) | Syntactic re-ranking of potential transcriptions during automatic speech recognition | |
EP2707808A2 (en) | Exploiting query click logs for domain detection in spoken language understanding | |
JP5770753B2 (ja) | Cjk名前検出 | |
JP2022510818A (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
Comas et al. | Sibyl, a factoid question-answering system for spoken documents | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
KR20120095914A (ko) | 입력 제안들을 생성 | |
CN114595696A (zh) | 实体消歧方法、实体消歧装置、存储介质与电子设备 | |
CN103136190B (zh) | Cjk姓名检测 | |
Simunec et al. | N-gram Based Croatian Language Network | |
Kang et al. | A language independent n-gram model for word segmentation | |
CN115905297B (zh) | 用于检索数据的方法、设备和介质 | |
KR20140049148A (ko) | 형태소 분할에 기반한 품사 태깅 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140602 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150213 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150625 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5770753 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |