JP5819860B2 - 複合語分割 - Google Patents
複合語分割 Download PDFInfo
- Publication number
- JP5819860B2 JP5819860B2 JP2012553041A JP2012553041A JP5819860B2 JP 5819860 B2 JP5819860 B2 JP 5819860B2 JP 2012553041 A JP2012553041 A JP 2012553041A JP 2012553041 A JP2012553041 A JP 2012553041A JP 5819860 B2 JP5819860 B2 JP 5819860B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- word
- candidate
- token
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 150000001875 compounds Chemical class 0.000 title claims description 260
- 238000000034 method Methods 0.000 claims description 112
- 230000000877 morphologic effect Effects 0.000 claims description 54
- 239000002131 composite material Substances 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 description 69
- 230000008569 process Effects 0.000 description 65
- 238000013519 translation Methods 0.000 description 49
- 230000014616 translation Effects 0.000 description 49
- 238000012549 training Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 238000003780 insertion Methods 0.000 description 11
- 230000037431 insertion Effects 0.000 description 11
- 230000009471 action Effects 0.000 description 9
- 239000000470 constituent Substances 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 239000003638 chemical reducing agent Substances 0.000 description 6
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 238000013329 compounding Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006740 morphological transformation Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
PTCS(f)=(f,e1,...,en;g1,...,gn) (1)
「for j=i+1,...,min(i+l,N)do」に変更することができ、ここで各々の複合部分は予め定義された長さlを超えない。この変更の結果として、長さlは予め定義された定数であるため、プロセス400は入力単語O(|w|)の長さにおいて一次になる。
flowerpot→f+lowerpot
flowerpot→fl+owerpot
flowerpot→flo+werpot
・・・
flowerpot→flower+pot
・・・
flowerpot→flowerpo+t
Verkehrszeichen→V+e+rkehrszeichen
Verkehrszeichen→V+er+kehrszeichen
Verkehrszeichen→V+erk+ehrszeichen
...
Verkehrszeichen→Verkehr+s+zeichen
...
Verkehrszeichen→Verkehrszeich+e+n
102 語彙データベース
104 語彙データベース
106 語彙データベース
108 脱複合語化エンジン
110 翻訳エンジン
112 第1コンテンツ発生器
114 第1部分的語彙リスト
114a 言語コード
114b 単語
114c 頻度カウント
114d 単語
116 データプロバイダデータベース
118 第2コンテンツ発生器
122 入力文字列モジュール
124 第2部分的語彙リスト
124a データベース項目
126 入力文字列
128 語彙データベース
130 原言語選択
132 複合語分割器
134 コストモジュール
136 変換モジュール
138a 構成要素
138b 構成要素
140 目標言語選択
142 出力文字列モジュール
144 出力文字列
300 形態素の部分的リスト
302 形態素
304 形態素
306 形態素
308 形態素
400 複合語分割プロセス
402 「for」ループ
500 語彙素例のリスト
502 語彙素
502a 頻度カウント
502b 言語コード
600 部分的リスト
602 ステマー終了形態素
604 発生器終了形態素
606 ステマー接尾辞
608 発生器接尾辞
700 テーブル
800 ネットワークアーキテクチャ
802 サーバ
804a データベース
804b データベース
804c データベース
804d データベース
806 ネットワーク
808 ユーザアクセス装置
808a ユーザアクセス装置
808b ユーザアクセス装置
808c ユーザアクセス装置
814 コンピュータシステム
816 キーボード
818 表示装置
900 脱複合語化プロセス
Claims (21)
- 1つ又はそれ以上のコンピュータと、
前記1つ又はそれ以上のコンピュータに結合され、命令が格納された記憶装置と
を備えるシステムであって、
前記命令は、前記1つ又はそれ以上のコンピュータによって実行されると前記1つ又はそれ以上のコンピュータに、
文字のシーケンスを含むトークンを取得する手順と、
前記トークンの構成要素である2つ又はそれ以上の候補部分語と、前記候補部分語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別する手順であって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、手順と、
複合語の考えられる構成要素を出現頻度と共にリスト化した単語頻度リストに基づいて、各々の候補部分語に関係するコストを決定する手順と、
文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補部分語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定する手順と、
決定したコストに基づいて、前記トークンを前記候補部分語に選択的に脱複合語化する手順と
を実行させる、システム。 - 前記命令が、前記1つ又はそれ以上のコンピュータに、
前記各々の候補部分語に関係するコストと前記各々の形態素演算に関係するコストとを結合する手順をさらに実行させる、請求項1に記載のシステム。 - 前記トークンを前記候補部分語に選択的に脱複合語化する手順が、前記結合されたコストに基づいて実行される、請求項2に記載のシステム。
- 前記コストを決定する手順が、複数のスコアリング機能の中から、前記候補部分語にコストを割り当てるカスタムスコアリング機能を選択する手順をさらに含む、請求項3に記載のシステム。
- 前記トークンを前記候補部分語に選択的に脱複合語化する手順が、前記結合されたコストが、前記トークンの構成要素である候補部分語のすべての識別された組み合わせに関係する最低の結合されたコストを構成する場合、前記トークンを前記候補部分語に脱複合語化する手順をさらに含む、請求項3に記載のシステム。
- 前記命令が、前記1つ又はそれ以上のコンピュータに、
前記候補部分語間の分割点の量を決定する手順と、
前記分割点の量に関係するコストを決定する手順と
をさらに実行させる、請求項1に記載のシステム。 - 前記少なくとも1つの形態素演算が、
前記辞書にない単語を2つの前記候補部分語間に挿入する演算と、
前記トークンから前記辞書にない単語を除去する演算と、
前記辞書にない単語を1つ又はそれ以上の前記候補部分語の接頭辞として前置する演算と、
前記辞書にない単語を1つ又はそれ以上の前記候補部分語の接尾辞として後置する演算と、
前記辞書にない単語を1つ又はそれ以上の前記候補部分語の挿入辞として挿入する演算と
のうちの少なくとも1つを含む前記候補部分語の使用を含んでいる、請求項1に記載のシステム。 - 前記辞書にない単語がつなぎ形態素を含む、請求項1に記載のシステム。
- 前記辞書にない単語が、前記候補部分語の言語で定義された意味を持たない文字のサブシーケンスを含む、請求項1に記載のシステム。
- 文字のシーケンスを含むトークンを取得するステップと、
前記トークンの構成要素である2つ又はそれ以上の候補部分語と、前記候補部分語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別するステップであって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、ステップと、
複合語の考えられる構成要素を出現頻度と共にリスト化した単語頻度リストに基づいて、各々の候補部分語に関係するコストを決定するステップと、
文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補部分語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定するステップと、
決定したコストに基づいて、前記トークンを前記候補部分語に選択的に脱複合語化するステップと
を有する、コンピュータにより実施される方法。 - コンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムは、データ処理装置によって実行されると前記データ処理装置に、
文字のシーケンスを含むトークンを取得する手順と、
前記トークンの構成要素である2つ又はそれ以上の候補部分語と、前記候補部分語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別する手順であって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、手順と、
複合語の考えられる構成要素を出現頻度と共にリスト化した単語頻度リストに基づいて、各々の候補部分語に関係するコストを決定する手順と、
文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補部分語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定する手順と、
決定したコストに基づいて、前記トークンを前記候補部分語に選択的に脱複合語化する手順と
を実行させる、コンピュータ読み取り可能な記録媒体。 - 1つ又はそれ以上のコンピュータと、
前記1つ又はそれ以上のコンピュータに結合され、命令が格納された記憶装置と
を備えるシステムであって、
前記命令は、前記1つ又はそれ以上のコンピュータによって実行されると前記1つ又はそれ以上のコンピュータに、
第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別する手順と、
前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化する手順と、
前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順と
を実行させる、システム。 - 前記第1語彙がニュース言語モデル語彙を含む、請求項12に記載のシステム。
- 前記第2語彙がウェブ言語モデル語彙を含む、請求項12に記載のシステム。
- 前記命令が、前記1つ又はそれ以上のコンピュータに、
前記第2語彙に現れる単語を脱複合語化するために予め決められた回数より多く構成要素として使用された前記第1語彙に現れる1つ又はそれ以上の単語を選択する手順をさらに実行させ、
前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順が、前記第2語彙に現れる単語を脱複合語化するために予め決められた回数より多く構成要素として使用された前記第1語彙に現れる選択された前記1つ又はそれ以上の単語を出力する手順をさらに含む、請求項12に記載のシステム。 - 前記命令が、前記1つ又はそれ以上のコンピュータに、
個々の単語が前記第1語彙に現れる頻度に基づいて、前記汎用複合語分割器語彙から単語をフィルタで除去する手順をさらに実行させる、請求項12に記載のシステム。 - 前記汎用複合語分割器語彙が単一言語又は多言語語彙である、請求項12に記載のシステム。
- 前記第1語彙及び前記第2語彙が単一言語からの単語のみを含んでいる、請求項12に記載のシステム。
- コンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムは、データ処理装置によって実行されると前記データ処理装置に、
第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別する手順と、
前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化する手順と、
前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順と
を実行させる、コンピュータ読み取り可能な記録媒体。 - 第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別するステップと、
前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化するステップと、
前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力するステップと
を有する、コンピュータにより実施される方法。 - コンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータプログラムは、データ処理装置によって実行されると前記データ処理装置に、
第1語彙に現れる単語と、各々の単語が前記第1語彙に現れる頻度とを識別する手順と、
前記第1語彙に現れる1つ又はそれ以上の単語を各々の単語に対応する頻度に基づいて構成要素として使用して、第2語彙に現れる単語を選択的に脱複合語化する手順と、
前記第2語彙に現れる単語を脱複合語化するために構成要素として使用された前記第1語彙に現れる前記1つ又はそれ以上の単語を、汎用複合語分割器語彙として出力する手順と、
文字のシーケンスを含むトークンを取得する手順と、
前記汎用複合語分割器語彙に現れ、且つ前記トークンの構成要素である2つ又はそれ以上の候補単語と、前記候補単語を前記トークンに変換するために必要な1つ又はそれ以上の形態素演算とを識別する手順であって、少なくとも1つの前記形態素演算は、前記トークンの考えられる構成要素のリストに基づいた、辞書にない単語の使用を含む、手順と、
各々の候補単語に関係するコストを決定する手順であって、前記各々の候補単語に関係するコストは前記各々の候補単語が前記第1語彙に現れる頻度に対応する、手順と、
文字列と該文字列の構成要素との間のレーベンシュタイン距離によって定まる形態素演算のコストのデータベースを使用し、前記候補単語と前記トークンとの間のレーベンシュタイン距離に基づいて、各々の形態素演算に関係するコストを決定する手順と、
決定したコストに基づいて、前記トークンを前記候補単語に選択的に脱複合語化する手順と
を実行させる、コンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US30409810P | 2010-02-12 | 2010-02-12 | |
US61/304,098 | 2010-02-12 | ||
PCT/US2011/024563 WO2011100573A1 (en) | 2010-02-12 | 2011-02-11 | Compound splitting |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013519949A JP2013519949A (ja) | 2013-05-30 |
JP5819860B2 true JP5819860B2 (ja) | 2015-11-24 |
Family
ID=44368156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012553041A Active JP5819860B2 (ja) | 2010-02-12 | 2011-02-11 | 複合語分割 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9075792B2 (ja) |
EP (1) | EP2534585A4 (ja) |
JP (1) | JP5819860B2 (ja) |
KR (1) | KR101744861B1 (ja) |
CN (1) | CN102859515B (ja) |
WO (1) | WO2011100573A1 (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
CN102479191B (zh) * | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
US8308379B2 (en) | 2010-12-01 | 2012-11-13 | Digitaloptics Corporation | Three-pole tilt control system for camera module |
US9164988B2 (en) * | 2011-01-14 | 2015-10-20 | Lionbridge Technologies, Inc. | Methods and systems for the dynamic creation of a translated website |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
JP5834772B2 (ja) * | 2011-10-27 | 2015-12-24 | カシオ計算機株式会社 | 情報処理装置及びプログラム |
US8224836B1 (en) * | 2011-11-02 | 2012-07-17 | Google Inc. | Searching in multiple languages |
CN103197764B (zh) * | 2012-01-10 | 2016-08-17 | 联想(北京)有限公司 | 拼音输入法及装置 |
US8990066B2 (en) * | 2012-01-31 | 2015-03-24 | Microsoft Corporation | Resolving out-of-vocabulary words during machine translation |
US9294667B2 (en) | 2012-03-10 | 2016-03-22 | Digitaloptics Corporation | MEMS auto focus miniature camera module with fixed and movable lens groups |
CN103425691B (zh) | 2012-05-22 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
US10261994B2 (en) * | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9070303B2 (en) * | 2012-06-01 | 2015-06-30 | Microsoft Technology Licensing, Llc | Language learning opportunities and general search engines |
US9081762B2 (en) | 2012-07-13 | 2015-07-14 | Enyuan Wu | Phrase-based dictionary extraction and translation quality evaluation |
US9001268B2 (en) | 2012-08-10 | 2015-04-07 | Nan Chang O-Film Optoelectronics Technology Ltd | Auto-focus camera module with flexible printed circuit extension |
US9007520B2 (en) | 2012-08-10 | 2015-04-14 | Nanchang O-Film Optoelectronics Technology Ltd | Camera module with EMI shield |
US9055207B2 (en) | 2012-12-31 | 2015-06-09 | Digitaloptics Corporation | Auto-focus camera module with MEMS distance measurement |
US9454240B2 (en) | 2013-02-05 | 2016-09-27 | Google Inc. | Gesture keyboard input of non-dictionary character strings |
US8756499B1 (en) | 2013-04-29 | 2014-06-17 | Google Inc. | Gesture keyboard input of non-dictionary character strings using substitute scoring |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
CN104239343B (zh) * | 2013-06-20 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 一种用户输入信息的处理方法和装置 |
CN104346325B (zh) * | 2013-07-30 | 2017-05-10 | 富士通株式会社 | 信息处理方法和装置 |
CN104750687B (zh) * | 2013-12-25 | 2018-03-20 | 株式会社东芝 | 改进双语语料库的方法及装置、机器翻译方法及装置 |
US9530404B2 (en) * | 2014-10-06 | 2016-12-27 | Intel Corporation | System and method of automatic speech recognition using on-the-fly word lattice generation with word histories |
WO2016058138A1 (en) * | 2014-10-15 | 2016-04-21 | Microsoft Technology Licensing, Llc | Construction of lexicon for selected context |
US10552462B1 (en) * | 2014-10-28 | 2020-02-04 | Veritas Technologies Llc | Systems and methods for tokenizing user-annotated names |
CN105843811B (zh) * | 2015-01-13 | 2019-12-06 | 华为技术有限公司 | 转换文本的方法和设备 |
US10347240B2 (en) * | 2015-02-26 | 2019-07-09 | Nantmobile, Llc | Kernel-based verbal phrase splitting devices and methods |
JP6524008B2 (ja) * | 2016-03-23 | 2019-06-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
CN105912600B (zh) * | 2016-04-05 | 2019-08-16 | 上海智臻智能网络科技股份有限公司 | 问答知识库及其建立方法、智能问答方法和系统 |
WO2018074895A1 (en) * | 2016-10-21 | 2018-04-26 | Samsung Electronics Co., Ltd. | Device and method for providing recommended words for character input |
CN107169169B (zh) * | 2017-04-20 | 2020-05-05 | 上海交通大学 | 软式飞机机械式操纵系统的仿真实现方法 |
US10528407B2 (en) * | 2017-07-20 | 2020-01-07 | Vmware, Inc. | Integrated statistical log data mining for mean time auto-resolution |
US10572976B2 (en) | 2017-10-18 | 2020-02-25 | International Business Machines Corporation | Enhancing observation resolution using continuous learning |
CN107894979B (zh) * | 2017-11-21 | 2021-09-17 | 北京百度网讯科技有限公司 | 用于语义挖掘的复合词处理方法、装置及其设备 |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
US11010553B2 (en) * | 2018-04-18 | 2021-05-18 | International Business Machines Corporation | Recommending authors to expand personal lexicon |
CN109165391A (zh) * | 2018-07-27 | 2019-01-08 | 纤瑟(天津)新材料科技有限公司 | 一种利用偏旁部首信息的神经网络机器翻译系统及方法 |
CN111310452B (zh) * | 2018-12-12 | 2024-06-18 | 北京汇钧科技有限公司 | 一种分词方法和装置 |
CN109871425A (zh) * | 2019-02-12 | 2019-06-11 | 马三和 | 英文单词信息处理方法、装置及计算机可读存储介质 |
KR20210052958A (ko) * | 2019-11-01 | 2021-05-11 | 엘지전자 주식회사 | 인공 지능 서버 |
CN112434521A (zh) * | 2020-11-13 | 2021-03-02 | 北京搜狗科技发展有限公司 | 词汇处理方法和装置 |
US20230196034A1 (en) * | 2021-12-21 | 2023-06-22 | International Business Machines Corporation | Automatically integrating user translation feedback |
US11886826B1 (en) * | 2023-03-14 | 2024-01-30 | Openai Opco Llc | Systems and methods for language model-based text insertion |
Family Cites Families (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4328561A (en) * | 1979-12-28 | 1982-05-04 | International Business Machines Corp. | Alpha content match prescan method for automatic spelling error correction |
JPS6126176A (ja) * | 1984-07-17 | 1986-02-05 | Nec Corp | 言語処理用辞書 |
US4672571A (en) * | 1984-10-24 | 1987-06-09 | International Business Machines Corporation | Compound word suitability for spelling verification |
US4864503A (en) * | 1987-02-05 | 1989-09-05 | Toltran, Ltd. | Method of using a created international language as an intermediate pathway in translation between two national languages |
US4777617A (en) * | 1987-03-12 | 1988-10-11 | International Business Machines Corporation | Method for verifying spelling of compound words |
US4873634A (en) * | 1987-03-27 | 1989-10-10 | International Business Machines Corporation | Spelling assistance method for compound words |
US5065318A (en) * | 1989-04-24 | 1991-11-12 | Sharp Kabushiki Kaisha | Method of translating a sentence including a compound word formed by hyphenation using a translating apparatus |
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5625554A (en) * | 1992-07-20 | 1997-04-29 | Xerox Corporation | Finite-state transduction of related word forms for text indexing and retrieval |
JP2583386B2 (ja) * | 1993-03-29 | 1997-02-19 | 日本電気株式会社 | キーワード自動抽出装置 |
US6496793B1 (en) * | 1993-04-21 | 2002-12-17 | Borland Software Corporation | System and methods for national language support with embedded locale-specific language driver identifiers |
US6304841B1 (en) * | 1993-10-28 | 2001-10-16 | International Business Machines Corporation | Automatic construction of conditional exponential models from elementary features |
US5963893A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Identification of words in Japanese text by a computer system |
JP3272288B2 (ja) * | 1997-12-24 | 2002-04-08 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置および機械翻訳方法 |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6092036A (en) * | 1998-06-02 | 2000-07-18 | Davox Corporation | Multi-lingual data processing system and system and method for translating text used in computer software utilizing an embedded translator |
US6401060B1 (en) * | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US6882970B1 (en) * | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
SE519636C2 (sv) * | 2000-07-06 | 2003-03-25 | Hapax Information Systems Ab | Förfarande och anordning för analys av sammansatta ord |
US7516063B1 (en) * | 2001-04-17 | 2009-04-07 | Personalized Mass Media Corporation | System and method for storing data using a machine readable vocabulary |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
JP4947861B2 (ja) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US7634397B2 (en) * | 2002-06-27 | 2009-12-15 | Siebel Systems, Inc. | Single server instance, multi-lingual applications based on loosely coupled metadata and presentation layers |
US20040002849A1 (en) * | 2002-06-28 | 2004-01-01 | Ming Zhou | System and method for automatic retrieval of example sentences based upon weighted editing distance |
JP4001283B2 (ja) * | 2003-02-12 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析装置および自然言語処理装置 |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7555428B1 (en) * | 2003-08-21 | 2009-06-30 | Google Inc. | System and method for identifying compounds through iterative analysis |
US7447627B2 (en) | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
US7421386B2 (en) * | 2003-10-23 | 2008-09-02 | Microsoft Corporation | Full-form lexicon with tagged data and methods of constructing and using the same |
US7814101B2 (en) * | 2003-10-30 | 2010-10-12 | Microsoft Corporation | Term database extension for label system |
US7580827B1 (en) * | 2003-12-31 | 2009-08-25 | Google Inc. | Semantic unit recognition |
US8229751B2 (en) * | 2004-02-26 | 2012-07-24 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals |
JP4754247B2 (ja) * | 2004-03-31 | 2011-08-24 | オセ−テクノロジーズ ビーブイ | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 |
CA2577075C (en) * | 2004-08-13 | 2014-10-07 | 5 Examples, Inc. | The one-row keyboard and approximate typing |
US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8090579B2 (en) * | 2005-02-08 | 2012-01-03 | Landmark Digital Services | Automatic identification of repeated material in audio signals |
US7672830B2 (en) * | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
JP2006243104A (ja) * | 2005-03-01 | 2006-09-14 | Canon Inc | 音声合成方法 |
US7583205B2 (en) * | 2005-07-28 | 2009-09-01 | Research In Motion Limited | Handheld electronic device with disambiguation of compound word text input |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
JP5011751B2 (ja) * | 2006-02-27 | 2012-08-29 | 富士通株式会社 | 訳語情報出力処理プログラム,処理方法および処理装置 |
US7991608B2 (en) * | 2006-04-19 | 2011-08-02 | Raytheon Company | Multilingual data querying |
WO2008043582A1 (en) * | 2006-10-13 | 2008-04-17 | International Business Machines Corporation | Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in said dictionary |
US8086599B1 (en) * | 2006-10-24 | 2011-12-27 | Google Inc. | Method and apparatus for automatically identifying compunds |
US7860707B2 (en) * | 2006-12-13 | 2010-12-28 | Microsoft Corporation | Compound word splitting for directory assistance services |
US8468244B2 (en) * | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
US8645119B2 (en) * | 2007-03-26 | 2014-02-04 | Google Inc. | Minimum error rate training with a large number of features for machine learning |
US20080312902A1 (en) * | 2007-06-18 | 2008-12-18 | Russell Kenneth Dollinger | Interlanguage communication with verification |
US8046355B2 (en) * | 2007-09-04 | 2011-10-25 | Google Inc. | Word decompounder |
US7983903B2 (en) * | 2007-09-07 | 2011-07-19 | Microsoft Corporation | Mining bilingual dictionaries from monolingual web pages |
US20090091087A1 (en) * | 2007-10-03 | 2009-04-09 | Robert Andrew Wasmund | Quiz-nested quiz game and system therefore |
JP5239307B2 (ja) * | 2007-11-20 | 2013-07-17 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
JP5224851B2 (ja) * | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
JP5112116B2 (ja) * | 2008-03-07 | 2013-01-09 | 株式会社東芝 | 機械翻訳する装置、方法およびプログラム |
US8615388B2 (en) * | 2008-03-28 | 2013-12-24 | Microsoft Corporation | Intra-language statistical machine translation |
US7827187B2 (en) * | 2008-04-04 | 2010-11-02 | International Business Machines Corporation | Frequency partitioning: entropy compression with fixed size fields |
US8473279B2 (en) * | 2008-05-30 | 2013-06-25 | Eiman Al-Shammari | Lemmatizing, stemming, and query expansion method and system |
JP2010055235A (ja) * | 2008-08-27 | 2010-03-11 | Fujitsu Ltd | 翻訳支援プログラム、及び該システム |
CN101576876B (zh) * | 2009-03-03 | 2011-01-05 | 杜小勇 | 一种自动拆分英文复合词组的系统和方法 |
US8108391B1 (en) * | 2009-03-12 | 2012-01-31 | Google Inc. | Identifying non-compositional compounds |
US8392441B1 (en) * | 2009-08-15 | 2013-03-05 | Google Inc. | Synonym generation using online decompounding and transitivity |
US8781814B2 (en) * | 2009-09-15 | 2014-07-15 | Hewlett-Packard Development Company, L.P. | Method for locating line breaks in text |
EP2534585A4 (en) * | 2010-02-12 | 2018-01-24 | Google LLC | Compound splitting |
US8612205B2 (en) * | 2010-06-14 | 2013-12-17 | Xerox Corporation | Word alignment method and system for improved vocabulary coverage in statistical machine translation |
US20120035905A1 (en) * | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
-
2011
- 2011-02-11 EP EP11742881.3A patent/EP2534585A4/en not_active Withdrawn
- 2011-02-11 KR KR1020127021122A patent/KR101744861B1/ko active IP Right Grant
- 2011-02-11 WO PCT/US2011/024563 patent/WO2011100573A1/en active Application Filing
- 2011-02-11 CN CN201180009346.2A patent/CN102859515B/zh active Active
- 2011-02-11 JP JP2012553041A patent/JP5819860B2/ja active Active
- 2011-02-14 US US13/026,936 patent/US9075792B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102859515A (zh) | 2013-01-02 |
WO2011100573A1 (en) | 2011-08-18 |
KR20120129906A (ko) | 2012-11-28 |
EP2534585A1 (en) | 2012-12-19 |
US20110202330A1 (en) | 2011-08-18 |
US9075792B2 (en) | 2015-07-07 |
JP2013519949A (ja) | 2013-05-30 |
KR101744861B1 (ko) | 2017-06-08 |
CN102859515B (zh) | 2016-01-13 |
EP2534585A4 (en) | 2018-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5819860B2 (ja) | 複合語分割 | |
US8745065B2 (en) | Query parsing for map search | |
CN105917327B (zh) | 用于将文本输入到电子设备中的系统和方法 | |
US8412517B2 (en) | Dictionary word and phrase determination | |
US8010344B2 (en) | Dictionary word and phrase determination | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
US20170197152A1 (en) | Named entity recognition on chat data | |
JP2005267638A (ja) | 改善されたスペルチェックのためのシステムおよび方法 | |
KR20100105586A (ko) | Cjk 성명 검출 | |
US8793120B1 (en) | Behavior-driven multilingual stemming | |
US10140282B2 (en) | Input string matching for domain names | |
US10853569B2 (en) | Construction of a lexicon for a selected context | |
KR20140068520A (ko) | 자동완성 질의어 제공 시스템 및 방법 | |
US9336317B2 (en) | System and method for searching aliases associated with an entity | |
JP2022511139A (ja) | 情報処理方法、装置および記憶媒体 | |
JP2011076408A (ja) | データ管理装置、データ管理方法、およびデータ管理プログラム | |
CN107220249B (zh) | 基于分类的全文搜索 | |
US20170220557A1 (en) | Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases | |
JP2013225200A (ja) | 意味的対応付け装置及びその処理方法とプログラム | |
KR20180007183A (ko) | 대표문자와 공백 입력을 통한 둘 이상의 단어로 구성된 문장입력방법 및 장치 | |
Adesina et al. | A query-based SMS translation in information access system | |
JP2016194822A (ja) | サーバシステム及びそのプログラム、並びにエラーチェック方法 | |
JP5363178B2 (ja) | 修正候補取得装置、修正候補取得システム、修正候補取得方法、修正候補取得プログラム | |
JP5159657B2 (ja) | 複数種類の読み仮名を有する漢字含み文字列の誤変換を指摘する誤変換指摘装置及びその方法 | |
JP2011238055A (ja) | 文章ファイル評価装置、文章ファイル評価方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140627 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140929 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150223 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150623 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20150701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151001 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5819860 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |