JP5770753B2 - Cjk名前検出 - Google Patents
Cjk名前検出 Download PDFInfo
- Publication number
- JP5770753B2 JP5770753B2 JP2013004333A JP2013004333A JP5770753B2 JP 5770753 B2 JP5770753 B2 JP 5770753B2 JP 2013004333 A JP2013004333 A JP 2013004333A JP 2013004333 A JP2013004333 A JP 2013004333A JP 5770753 B2 JP5770753 B2 JP 5770753B2
- Authority
- JP
- Japan
- Prior art keywords
- name
- names
- characters
- data
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
中国語の一部の単語は、人の名前又は通常の単語のどちらでもあり得る。例えば、
Pname(W, context) = Pname(prefix)Pname(W | prefix)Pname(suffix | W, prefix).
Pname(W, context)は、以下のようにさらに近似することができる。
Pname(prefix)Pname(family_name, given name | prefix)Pname(suffix | family_name, given_name)Pname 式(1)
加えて、結合確率P(w = NOTNAME, context)を同様に以下のように近似することができる。
Pnotname(prefix)Pnotname (family_name, given_name | prefix)Pnotname (suffix | family_name, given_name) 式(2)
図2は、未加工名前検出モデル206の例の生成を図示したブロック図200である。便宜上、未加工名前検出モデル206の生成は、生成を実行するシステムに関して説明される。
図3は、名前検出モデル314の例の生成を図示したブロック図300である。注釈プロセス316(例えば、未加工名前検出モデル206によって実行される)が、拡張名前検出モデルを生成するために、注釈のないデータに適用される。準構造化データ302及び大規模な注釈のないコーパス308を、注釈のないデータとして使用することができる。
図4は、例の名前検出モデル314のコンポーネントを図示したブロック図である。名前検出モデル314は、名前モデル402と、非名前モデル404と、言語モデル406とを具備している。
名前304を特定するn-グラムを含んでいる準構造化データのサブセットと、名前310を特定するn-グラムを含んでいる大規模な注釈付コーパスデータのセットとを使用して、名前モデル402を導出する。システムは、姓および名を含むn-グラムが名前を特定する確率、又は、Pname(family_name, given_name)を決定するために、これらのデータのセットを使用する。
名前を特定しないnグラムを含んでいる準構造化データのサブセットを使用して、非名前モデル404を導出する。システムは、姓および名を含むn-グラムが名前を特定しない確率、又は、Pnotname(family_name, given_name)を決定するために、このデータのサブセットを使用する。
大規模な注釈付データ(例えば、310及び312)のセットを使用して、言語モデル406を導出する。システムは、コンテキストを使用することで確率(n-グラムが名前を特定するか、または名前を特定しない)を決定するために、これらのデータのセットを使用する。特に、システムは、名前を伴う言語サブモデルを導出するために、確率(接尾語が名前候補を付与された名前を特定し、かつ、名前候補が接頭語を付与された名前を特定する)、又は、Pname(suffix | name)およびPname(name | prefix)を決定する。
名前モデルおよび言語モデルからの確率評価を使用して、P(NAME | context)を決定する。例えば、文字シーケンスが「c1 c2 c3 c4 c5 c6 c7」であり、かつ、「c3 c4 c5」が名前である場合、次いで、「c3 c4 c5」がコンテキストを付与された名前である(即ち、接頭語が「c1 c2」であり、かつ、接尾語が「c6 c7」である)確率、又は、P(NAME | context)は、上記した式(1)から導出することができる。P(NAME | context)は、以下として表現することができる。
Pname(c3 | prefix)Pname(c4 c5 | c3)Pname(suffix | c3, c4 c5)
Pname(family_name | prefix)Pname(given_name | family_name)Pname(suffix | family_name, given_name)
ここで、
Pnotname(c3 | prefix)Pnotname(c4 c5 | c3)Pnotname(suffix | c4 c5)
Pnotname(family_name | prefix)Pnotname(given_name |family_name)Pnotname(suffix | family_name, given_name)
一部の実施例では、名前検出モデル314をさらに使用して、準構造化データ302と大規模な注釈のないコーパス308とを、注釈付準構造化データ(304及び306)と大規模な注釈付コーパス(310及び312)とに分離する。例えば、図3では、名前検出モデル314は、注釈プロセス316で使用されて、準構造化データ302と大規模な注釈のないコーパス308とを分離する。一部の実施例では、これらの新しいトレーニングデータのセットを使用して、より改良された名前検出モデルを生成する。より改良された名前検出モデルは、名前を特定するか、または名前を特定しないn-グラムの確率評価を導出するために、より大規模なトレーニングデータの使用によって、未加工名前検出モデルより広い適用範囲を有する。
相対度数は、特定の名前(例えば、トレーニングデータにおいて低い出現頻度を有する疎な名前、疎な姓、または外国人の名前)に対して低い場合がある。その結果、対応する確率評価は不正確であり得る。これは、追加的な疎データ問題をもたらす。したがって、平滑化技術を使用して、低頻度、または疎な名前を計上することができる。トレーニングデータに出現する文字シーケンスの頻度がしきい値より低い場合、平滑化技術を使用することができる。
一部の実施例では、出現する名前の確率は、出現する姓および出現する名の確率から独立している。例えば、「y」が姓「x」に対する名である場合、次いで、名前は「xy」である。その上、「z」は疎な姓である。名前「zy」は疎な姓「z」及び名「y」を表し、ここで、疎な姓「z」は、サンプリングされなかったか、または低頻度でサンプリングされる(例えば、指定されたしきい値頻度より低い)。1実施例では、システムは、「zy」の確率を近似するために、「xy」の確率を使用する。特に、「x」が姓であるというイベントと、「y」が名であるというイベントとの確率は、独立して扱われる。
BackoffWeight(family_name, given_name)Pnotname(suffix | all_family_names, given_name).
一部の実施例では、すべての疎な姓の確率は、単一の疎な姓の確率のための置換として使用される。例えば、「a」は名であり、かつ、「b」は姓である。コンテキストを付与された出現する名前の確率を、P(a | b)P(b | context)によって表すことができる。「b」が疎な姓である場合、確率P(a | b)は不正確である場合がある。この実施例では、所定のコンテキストで出現する名前の確率は、確率(すべての疎な姓がコンテキストを付与されたトレーニングデータにおいて出現する)によって多重化されたすべての疎な姓を付与されたトレーニングデータにおいて「a」が出現する確率、又は、
P(a | all_sparse_family_name)P(b | all_sparse_family)P(all_sparse_family_name | context)
を使用することによってより正確に表される。
外国人の名前(例えば、翻訳された名前)の相対度数も低く、不正確な確率評価をもたらす。したがって、外国人の名前検出モデルを、名前検出モデル314を生成するステップに関して上記した同じステップに従って、生成することができる。特に、未加工外国人の名前検出モデルは、未加工名前検出モデル206を生成するステップと同じように、外国人の姓の事前に定義されたコレクションから生成される。未加工外国人の名前検出モデルを他のデータ(例えば、大規模な注釈のないデータおよび準構造化データ)に適用して、名前検出モデル314を生成するステップと同じように、外国人の名前検出モデルを生成することができる。
n-グラムの所定の入力シーケンスに対して名前を検出するために、名前検出モデルを使用するとき、名前を特定するか、または名前を特定しないn-グラムの確率評価を使用して、文字シーケンスを単語に区分し、かつ、同時に、名前を検出する。
図7は、CJK名前検出の例のシステム700である。データ処理装置710は、検出プログラム720を含む、ハードウェア/ファームウェア、オペレーティングシステム、および1又は複数のプログラムを含むことができる。検出プログラム720は、本明細書に記載されたオペレーションを実行するために、データ処理装置710に関連して、動作する。その結果、検出プログラム720は、1又は複数のプロセッサおよびコンピュータ可読媒体(例えば、メモリ)を組み合わせて、システム700の1又は複数の構造上のコンポーネントを表す。
204 姓のコレクション
206 名のコレクション
402 名前モデル
404 非名前モデル
406 言語モデル
Claims (4)
- 文字の入力ストリングを受信するステップと、
名前検出モデルを複数の文字を有する前記入力ストリングに適用するステップと
を具備し、
前記名前検出モデルを適用するステップは、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定するステップと、
1又は複数の名前を潜在的に含むとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出するステップと、
1又は複数の名前を潜在的に含んでいる、前記複数の文字の区分化を特定するステップと、
1又は複数の名前を潜在的に含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化の尤度より大きいとき、1又は複数の名前を含むとして、前記複数の文字を区分するステップと、
前記複数の文字が1又は複数の名前を含むとして区分されるとき、1又は複数の名前を検出するステップと
を具備することを特徴とする方法。 - 文字の入力ストリングを受信する手段と、
名前検出モデルを複数の文字を有する前記入力ストリングに適用する手段と
を備え、
前記名前検出モデルを適用する手段は、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定する手段と、
1又は複数の名前を潜在的に含むとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出する手段と、
1又は複数の名前を潜在的に含んでいる、前記複数の文字の区分化を特定する手段と、
1又は複数の名前を潜在的に含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化の尤度より大きいとき、1又は複数の名前を含むとして、前記複数の文字を区分する手段と、
前記複数の文字が1又は複数の名前を含むとして区分されるとき、1又は複数の名前を検出する手段と
を備えることを特徴とするシステム。 - コンピュータプログラムであって、
有形のプログラムキャリア上にコード化され、
文字の入力ストリングを受信するステップと、
名前検出モデルを複数の文字を有する前記入力ストリングに適用するステップと
を具備するオペレーションをデータ処理装置に実行させ、
前記名前検出モデルを適用するステップは、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定するステップと、
1又は複数の名前を潜在的に含むとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出するステップと、
1又は複数の名前を潜在的に含んでいる、前記複数の文字の区分化を特定するステップと、
1又は複数の名前を潜在的に含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化の尤度より大きいとき、1又は複数の名前を含むとして、前記複数の文字を区分するステップと、
前記複数の文字が1又は複数の名前を含むとして区分されるとき、1又は複数の名前を検出するステップと
を具備することを特徴とするコンピュータプログラム。 - システムであって、
文字の入力ストリングを受信するステップと、
名前検出モデルを複数の文字を有する前記入力ストリングに適用するステップと
を具備するオペレーションを実行するように構成された1又は複数のコンピュータを備え、
前記名前検出モデルを適用するステップは、
1又は複数の名前を含まない、前記複数の文字の最も尤もらしい区分化を特定するステップと、
1又は複数の名前を潜在的に含むとして、前記複数の文字のうちの1又は複数の文字シーケンスを検出するステップと、
1又は複数の名前を潜在的に含んでいる、前記複数の文字の区分化を特定するステップと、
1又は複数の名前を潜在的に含む前記区分化の尤度が、1又は複数の名前を含まない最も尤もらしい区分化の尤度より大きいとき、1又は複数の名前を含むとして、前記複数の文字を区分するステップと、
前記複数の文字が1又は複数の名前を含むとして区分されるとき、1又は複数の名前を検出するステップと
を具備することを特徴とするシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013004333A JP5770753B2 (ja) | 2013-01-15 | 2013-01-15 | Cjk名前検出 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013004333A JP5770753B2 (ja) | 2013-01-15 | 2013-01-15 | Cjk名前検出 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010536305A Division JP5379155B2 (ja) | 2007-12-06 | 2007-12-06 | Cjk名前検出 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109364A JP2013109364A (ja) | 2013-06-06 |
JP5770753B2 true JP5770753B2 (ja) | 2015-08-26 |
Family
ID=48706101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013004333A Active JP5770753B2 (ja) | 2013-01-15 | 2013-01-15 | Cjk名前検出 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5770753B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238409B2 (en) | 2017-09-29 | 2022-02-01 | Oracle International Corporation | Techniques for extraction and valuation of proficiencies for gap detection and remediation |
JP6550448B2 (ja) | 2017-12-18 | 2019-07-24 | ヤフー株式会社 | データ管理装置、データ管理方法、およびプログラム |
JP2022503842A (ja) | 2018-09-27 | 2022-01-12 | オラクル・インターナショナル・コーポレイション | メトリックのデータ駆動型相関のための技術 |
US11467803B2 (en) | 2019-09-13 | 2022-10-11 | Oracle International Corporation | Identifying regulator and driver signals in data systems |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3389285B2 (ja) * | 1993-06-15 | 2003-03-24 | 株式会社エヌ・ティ・ティ・データ | 固有名詞特定方法 |
US7333966B2 (en) * | 2001-12-21 | 2008-02-19 | Thomson Global Resources | Systems, methods, and software for hyperlinking names |
JP4005477B2 (ja) * | 2002-05-15 | 2007-11-07 | 日本電信電話株式会社 | 固有表現抽出装置及び方法並びに固有表現抽出プログラム |
JP4036064B2 (ja) * | 2002-09-12 | 2008-01-23 | 富士ゼロックス株式会社 | 形態素列処理装置および方法 |
US20050071148A1 (en) * | 2003-09-15 | 2005-03-31 | Microsoft Corporation | Chinese word segmentation |
JP4652737B2 (ja) * | 2004-07-14 | 2011-03-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
CN101271449B (zh) * | 2007-03-19 | 2010-09-22 | 株式会社东芝 | 裁减词表和为汉字串注音的方法及装置 |
-
2013
- 2013-01-15 JP JP2013004333A patent/JP5770753B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013109364A (ja) | 2013-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5379155B2 (ja) | Cjk名前検出 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
Han et al. | Lexical normalisation of short text messages: Makn sens a# twitter | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US9454962B2 (en) | Sentence simplification for spoken language understanding | |
US20120047172A1 (en) | Parallel document mining | |
AU2023248112A1 (en) | Method and system for key phrase extraction and generation from text | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
KR20100135819A (ko) | 스케일된 확률들을 사용한 단어들의 분절 | |
EP2643770A2 (en) | Text segmentation with multiple granularity levels | |
Candito et al. | Parsing word clusters | |
KR101573854B1 (ko) | 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법 | |
WO2018057427A1 (en) | Syntactic re-ranking of potential transcriptions during automatic speech recognition | |
EP2707808A2 (en) | Exploiting query click logs for domain detection in spoken language understanding | |
JP5770753B2 (ja) | Cjk名前検出 | |
Wong et al. | isentenizer-: Multilingual sentence boundary detection model | |
JP2022510818A (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
Comas et al. | Sibyl, a factoid question-answering system for spoken documents | |
KR20120095914A (ko) | 입력 제안들을 생성 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
KR102204395B1 (ko) | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 | |
CN114595696A (zh) | 实体消歧方法、实体消歧装置、存储介质与电子设备 | |
Deka et al. | A study of t’nt and crf based approach for pos tagging in assamese language | |
CN103136190B (zh) | Cjk姓名检测 | |
Kang et al. | A language independent n-gram model for word segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140602 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20141222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150213 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150625 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5770753 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |