JP2006221658A - 効率のよい言語識別 - Google Patents
効率のよい言語識別 Download PDFInfo
- Publication number
- JP2006221658A JP2006221658A JP2006035607A JP2006035607A JP2006221658A JP 2006221658 A JP2006221658 A JP 2006221658A JP 2006035607 A JP2006035607 A JP 2006035607A JP 2006035607 A JP2006035607 A JP 2006035607A JP 2006221658 A JP2006221658 A JP 2006221658A
- Authority
- JP
- Japan
- Prior art keywords
- language
- feature
- text
- probability
- count
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000009826 distribution Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011143 downstream manufacturing Methods 0.000 abstract 1
- 238000011144 upstream manufacturing Methods 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 238000009411 base construction Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- E—FIXED CONSTRUCTIONS
- E03—WATER SUPPLY; SEWERAGE
- E03C—DOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
- E03C1/00—Domestic plumbing installations for fresh water or waste water; Sinks
- E03C1/12—Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
- E03C1/28—Odour seals
- E03C1/282—Odour seals combined with additional object-catching devices
-
- B08B1/12—
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10T—TECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
- Y10T70/00—Locks
- Y10T70/30—Hasp
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10T—TECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
- Y10T70/00—Locks
- Y10T70/30—Hasp
- Y10T70/333—Key lock
- Y10T70/342—Hasp-carried
- Y10T70/35—Keeper-encasing
- Y10T70/358—Dead bolt
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10T—TECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
- Y10T70/00—Locks
- Y10T70/50—Special application
- Y10T70/5611—For control and machine elements
- Y10T70/569—Lever
- Y10T70/5717—Multiple
- Y10T70/5721—Externally mounted locking device
- Y10T70/5726—With padlock
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10T—TECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
- Y10T70/00—Locks
- Y10T70/50—Special application
- Y10T70/5889—For automotive vehicles
- Y10T70/5973—Remote control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10T—TECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
- Y10T70/00—Locks
- Y10T70/70—Operating mechanism
- Y10T70/7051—Using a powered device [e.g., motor]
- Y10T70/7057—Permanent magnet
Abstract
【解決手段】自然言語テキストの言語識別のシステムおよび方法が提示される。このシステムは、自然言語に見られる文字のリストについての格納された期待される文字カウントおよび分散を含む。期待される文字カウントおよび分散は、言語識別時に考察される複数の言語について格納される。実行時に、実際の文字カウントと期待される文字カウントとの比較に基づいて、テキストサンプルの1つまたは複数の言語が識別される。本発明の方法は、考察される言語の数を制限するために、テキストサンプル中の文字のUnicode範囲の上流分析と組み合わされ得る。さらに、本発明のシステムおよび方法によって識別された言語の中から蓋然性の最も高い言語を選択するために、下流処理において、Nグラム法も使用され得る。
【選択図】図3A
Description
図1に、本発明が実施され得る適切なコンピューティングシステム環境の一例100を示す。コンピューティングシステム環境100は、適切なコンピューティング環境の一例にすぎず、本発明の用途または機能の範囲に関するどんな限定も示唆するものではない。また、コンピューティング環境100は、例示的動作環境100に示す構成要素のいずれか1つまたはそれらの組み合わせに関連するどんな依存関係または要件を有するものであるとも解釈すべきではない。
二項分布は公知の離散確率分布である。例えば、硬貨を指ではじくとき、その結果は表か裏のどちらかである。手品師が1組のトランプから選択されたカードを言い当てるとき、手品師は正しいか間違っているかである。赤ん坊が生まれるとき、赤ん坊は4月中に生まれるか生まれないかのどちらかである。これらの例のそれぞれにおいて、1つの事象は2つの相互に排他的な可能な結果を有する。結果の一方を「成功」と呼び、他方の結果を「失敗」と呼ぶことができる。ある事象がT回発生する(例えば、硬貨がT回またはT「試行」指ではじかれる)場合、二項分布を使用して、正確にT試行でC成功を獲得する確率を求めることができる。T試行でc成功を獲得する二項確率は以下の式によって与えられる。
1.Tがあらかじめ定められている、T回の同一の試行がある。
2.各試行は2つの可能な結果、すなわち成功または失敗を有する。
3.各試行は独立であり、1つの試行の結果は、別の試行の結果にどんな影響も及ぼさない。
4.成功の確率は、各試行を通じて一定である。
二項分布では、xの平均値および分散は、それぞれ、以下の式によって与えられる。
E(c)=Tπ 式2
Var(c)=Tπ(1−π) 式3
したがって、例えば、鉢の中に10個のボールがあり、3個のボールは赤であり、7個は青であると仮定する。成功は赤いボールを抜き取ることであると定義される。ボールがランダムに抜き取られ、次いで元に戻される場合、成功の確率は、各試行ごとに、
Var(c)=Tπ(1−π)
=(10)(0.3)(1−0.3)=2.1
さらに、試行回数が増大するにつれて、総試行回数のパーセンテージである分散は減少する傾向があることもわかる。ゆえに、予測の正確さは、試行回数が増大するにつれて向上する。
本発明では、二項分布(またはガウス分布などの他の確率分布)の概念が言語識別に使用され得る。言語LのT個の総特徴(total features)における1特徴のカウントを見る確率が、言語Lにおけるその特徴fの期待される確率が与えられたものとして計算することができる。特徴カウントは、「成功」とみなされ、特徴の総数は「試行」の回数とみなすることができる。
図9に、図4に示すカウンタ415に関して説明したような物理的な、またはコンピュータを使用した訓練プロセスのアルゴリズムまたは実施形態を示す。図示の訓練プロセスは、様々な自然言語の(図4の文字リスト412に示す)文字の(図4の416に示す)確率またはカウント情報および関連付けられる分散を生成するのに使用され得る。以下で論じる変数名は例示のためのものであり、必ずしも、訓練コードで使用される実際の変数名であるとは限らないことがわかる。訓練プロセスは、各言語ごとに実行される。訓練プロセスの出力は、各言語ごとの文字カウントおよび分散の配列である。
全体のTotalCharacterCount、
期待される確率/カウントを上回るTotalCountAbove、
この文字のカウントが期待される確率/カウントを上回ったウィンドウの総数である、TotalWindowsAbove、
期待される確率/カウントを下回るTotalCountBelow、
TotalWindowsBelow:現在の文字のカウントが期待される確率またはカウントを下回ったウィンドウの総数。
Penaltyは、CurrentCountがその文字の格納された分散内にないときに1より大きい。このスコアがその言語の総スコアに加算される。すべての文字がすべての言語について処理されると、アルゴリズムは総スコアのセットをループし、各言語の総スコアの平方根を取る。次いで、各言語ごとの最終スコアが以下の式によって与えられる。
110 コンピュータ
120 処理装置
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラム データ
140 取り外し不能不揮発性メモリインターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラム データ
150 取り外し可能不揮発性メモリインターフェース
152 取り外し可能、不揮発性磁気ディスク
155 光ディスクドライブ
156 不揮発性光ディスク
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 広域ネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺装置インターフェース
196 プリンタ
197 スピーカ
Claims (20)
- テキストの自然言語を識別する方法であって、
知られている自然言語で書かれたテキスト文書を受け取るステップと、
前記テキスト文書中の一意の特徴の出現回数を数えて期待される特徴カウントを生成するステップと、
確率分布および前記期待される特徴カウントを使用して、確率値を実際の特徴出現回数の関数として生成するステップと
を備えることを特徴とする方法。 - 確率分布を使用するステップは、離散確率分布または連続確率分布を使用するステップを含むことを特徴とする請求項1に記載の方法。
- 確率分布を使用するステップは、二項分布またはガウス分布を使用するステップを含むことを特徴とする請求項2に記載の方法。
- 複数の候補言語のそれぞれについて確率値の表を構築するステップをさらに備えることを特徴とする請求項1に記載の方法。
- 未確認の自然言語で書かれたテキストサンプルを受け取るステップと、
前記テキストサンプル中の前記特徴のいくつかについて実際の特徴カウントを求めるステップと、
前記確率値の表にアクセスし、前記実際の特徴カウントに基づいて前記テキストサンプルのために前記候補言語の少なくとも1つを識別するステップと
をさらに備えることを特徴とする請求項4に記載の方法。 - 前記実際の特徴カウントに関連付けられる確率値をかけ合わせることによって各候補言語のスコアをつけるステップをさらに備えることを特徴とする請求項4に記載の方法。
- テキストの自然言語を識別する方法であって、
未確認の自然言語で書かれたテキストサンプルを受け取るステップと、
前記テキストサンプル中の文字の少なくとも1つのウィンドウにおける少なくとも1つの特徴の現在のカウントを求めるステップと、
複数の候補言語について前記少なくとも1つの特徴の期待される確率情報を獲得するステップと、
前記現在のカウントおよび前記獲得された期待される確率情報に基づいて、前記複数の候補言語の中から、前記テキストサンプルの少なくとも1つの言語を識別するステップと
を備えることを特徴とする方法。 - 期待される確率情報を獲得するステップは、前記少なくとも1つの特徴の二項分布またはガウス分布に基づく確率値を受け取るステップを含むことを特徴とする請求項7に記載の方法。
- 選択されたサイズのサンプル当たりの前記少なくとも1つの特徴の平均カウントを含む前記期待される確率情報を推定するために訓練コーパスをサンプリングするステップをさらに備えることを特徴とする請求項7に記載の方法。
- 前記少なくとも1つの識別された言語のNグラム言語プロファイルを使用して、前記テキストサンプルでの蓋然性の最も高い言語を識別するステップをさらに備えることを特徴とする請求項7に記載の方法。
- Unicode値を使用して前記複数の候補言語を識別するステップをさらに備えることを特徴とする請求項7に記載の方法。
- 前記少なくとも1つの言語を識別するステップは、前記少なくとも1つの特徴の前記現在のカウントの、前記獲得された期待される確率情報との比較に基づいて、前記複数の候補言語それぞれの言語スコアを生成するステップを含むことを特徴とする請求項7に記載の方法。
- 言語スコアを生成するステップは、前記テキストサンプル中の前記求められた現在のカウントを有する複数の前記特徴の同時確率を推定するステップを含むことを特徴とする請求項12に記載の方法。
- 言語スコアを生成するステップは、前記少なくとも1つの特徴の前記現在のカウントが、前記獲得された期待される確率情報の分散内に含まれるときに候補言語にプラスのスコアをつけるステップを含むことを特徴とする請求項7に記載の方法。
- 言語スコアを生成するステップは、前記少なくとも1つの特徴の前記現在のカウントが、前記獲得された期待される確率値の分散の外側にあたるときに候補言語にマイナスのスコアをつけるステップを含み、前記少なくとも1つの特徴は1つの文字を含むことを特徴とする請求項7に記載の方法。
- スコアを生成するステップは、前記サンプルテキストにおける期待される特徴の非出現に対して候補言語にマイナスのスコアを付けるステップを含むことを特徴とする請求項7に記載の方法。
- 前記識別された少なくとも1つの言語のそれぞれの信頼度スコアを推定するステップをさらに備えることを特徴とする請求項7に記載の方法。
- 実装時に、コンピュータに言語識別を実行させる命令を含むコンピュータ可読媒体であって、前記命令は、
複数の自然言語のそれぞれについて、特徴リスト、および前記リストされた特徴のそれぞれに関連付けられる期待される確率値を構築し、格納するように適合されたモジュールと、
テキストサンプル中の実際の特徴をカウントし、前記実際の特徴に関連付けられる前記格納された期待される確率値にアクセスして前記テキストサンプルの少なくとも1つの自然言語を識別するように適合されたモジュールと
を備えることを特徴とするコンピュータ可読媒体。 - 前記識別された自然言語の信頼度スコアを求め、前記信頼度スコアに基づいて自然言語をランク付けするように適合されたモジュールをさらに備えることを特徴とする請求項18に記載のコンピュータ可読媒体。
- 前記少なくとも1つの識別された自然言語それぞれについてNグラム言語プロファイルにアクセスして前記テキストサンプルに関する言語識別を実行するように適合されたモジュールをさらに備えることを特徴とする請求項18に記載のコンピュータ可読媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/056,707 | 2005-02-11 | ||
US11/056,707 US8027832B2 (en) | 2005-02-11 | 2005-02-11 | Efficient language identification |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006221658A true JP2006221658A (ja) | 2006-08-24 |
JP5173141B2 JP5173141B2 (ja) | 2013-03-27 |
Family
ID=36616973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006035607A Expired - Fee Related JP5173141B2 (ja) | 2005-02-11 | 2006-02-13 | 効率のよい言語識別 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8027832B2 (ja) |
EP (1) | EP1691299A3 (ja) |
JP (1) | JP5173141B2 (ja) |
KR (1) | KR101265803B1 (ja) |
CN (1) | CN1819018B (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014517428A (ja) * | 2011-06-24 | 2014-07-17 | グーグル・インコーポレーテッド | 検索クエリのソース言語を検出すること |
JP2015534171A (ja) * | 2012-09-18 | 2015-11-26 | タッチタイプ リミテッド | 電子文字列をフォーマットするためのフォーマットモジュール、システム及び方法 |
JP2017532684A (ja) * | 2014-10-17 | 2017-11-02 | マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. | 言語検出を行うためのシステムおよび方法 |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US10346543B2 (en) | 2013-02-08 | 2019-07-09 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US10366170B2 (en) | 2013-02-08 | 2019-07-30 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10417351B2 (en) | 2013-02-08 | 2019-09-17 | Mz Ip Holdings, Llc | Systems and methods for multi-user mutli-lingual communications |
JP2019215876A (ja) * | 2019-07-03 | 2019-12-19 | エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc | 言語検出を行うためのシステムおよび方法 |
US10614171B2 (en) | 2013-02-08 | 2020-04-07 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0507036D0 (en) * | 2005-04-07 | 2005-05-11 | Ibm | Method and system for language identification |
US8185376B2 (en) * | 2006-03-20 | 2012-05-22 | Microsoft Corporation | Identifying language origin of words |
US7372851B2 (en) * | 2006-06-28 | 2008-05-13 | International Business Machines Corporation | Method and system for automatic language negotiation on voice (over IP) calls |
US7552045B2 (en) * | 2006-12-18 | 2009-06-23 | Nokia Corporation | Method, apparatus and computer program product for providing flexible text based language identification |
US8326598B1 (en) * | 2007-03-26 | 2012-12-04 | Google Inc. | Consensus translations from multiple machine translation systems |
US8301623B2 (en) * | 2007-05-22 | 2012-10-30 | Amazon Technologies, Inc. | Probabilistic recommendation system |
US8219447B1 (en) | 2007-06-06 | 2012-07-10 | Amazon Technologies, Inc. | Real-time adaptive probabilistic selection of messages |
GB0717067D0 (en) * | 2007-09-03 | 2007-10-10 | Ibm | An Apparatus for preparing a display document for analysis |
EP2107473A1 (en) * | 2008-03-31 | 2009-10-07 | Sony Corporation | System and method for determining the laguage of teletext |
US8869015B2 (en) * | 2008-05-08 | 2014-10-21 | Dialogic (Us) Inc. | System and method to permit language independence for web interfaces |
US8676001B2 (en) | 2008-05-12 | 2014-03-18 | Google Inc. | Automatic discovery of popular landmarks |
US8019596B2 (en) * | 2008-06-26 | 2011-09-13 | Microsoft Corporation | Linguistic service platform |
US8107671B2 (en) * | 2008-06-26 | 2012-01-31 | Microsoft Corporation | Script detection service |
US8073680B2 (en) * | 2008-06-26 | 2011-12-06 | Microsoft Corporation | Language detection service |
US8266514B2 (en) * | 2008-06-26 | 2012-09-11 | Microsoft Corporation | Map service |
US8239287B1 (en) | 2008-10-31 | 2012-08-07 | Amazon Technologies, Inc. | System for detecting probabilistic associations between items |
US8224641B2 (en) * | 2008-11-19 | 2012-07-17 | Stratify, Inc. | Language identification for documents containing multiple languages |
US8224642B2 (en) * | 2008-11-20 | 2012-07-17 | Stratify, Inc. | Automated identification of documents as not belonging to any language |
US8396287B2 (en) * | 2009-05-15 | 2013-03-12 | Google Inc. | Landmarks from digital photo collections |
US8468011B1 (en) * | 2009-06-05 | 2013-06-18 | Google Inc. | Detecting writing systems and languages |
US20110087962A1 (en) * | 2009-10-14 | 2011-04-14 | Qualcomm Incorporated | Method and apparatus for the automatic predictive selection of input methods for web browsers |
US20120035905A1 (en) * | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
US8635061B2 (en) | 2010-10-14 | 2014-01-21 | Microsoft Corporation | Language identification in multilingual text |
US9063931B2 (en) * | 2011-02-16 | 2015-06-23 | Ming-Yuan Wu | Multiple language translation system |
US9535895B2 (en) * | 2011-03-17 | 2017-01-03 | Amazon Technologies, Inc. | n-Gram-based language prediction |
US8938670B2 (en) * | 2011-03-27 | 2015-01-20 | Brian Andrew Kolo | Methods and systems for automated language identification |
US8872852B2 (en) * | 2011-06-30 | 2014-10-28 | International Business Machines Corporation | Positional context determination with multi marker confidence ranking |
US10650063B1 (en) * | 2012-11-27 | 2020-05-12 | Robert D. Fish | Systems and methods for making correlations |
US8837835B1 (en) * | 2014-01-20 | 2014-09-16 | Array Technology, LLC | Document grouping system |
CN106326205B (zh) * | 2015-06-19 | 2019-05-31 | 珠海金山办公软件有限公司 | 一种拼写检查方法及装置 |
US9778914B2 (en) * | 2015-06-25 | 2017-10-03 | Ca, Inc. | Automatic discovery of comparable features based on N-gram analysis |
US9606990B2 (en) | 2015-08-04 | 2017-03-28 | International Business Machines Corporation | Cognitive system with ingestion of natural language documents with embedded code |
KR101693627B1 (ko) | 2015-10-08 | 2017-01-17 | 숭실대학교산학협력단 | 문자 인코딩 변환 장치 및 방법 |
US20170116194A1 (en) | 2015-10-23 | 2017-04-27 | International Business Machines Corporation | Ingestion planning for complex tables |
US10402392B2 (en) | 2016-03-03 | 2019-09-03 | International Business Machines Corporation | Identifying corrupted text segments |
US10430835B2 (en) * | 2016-04-14 | 2019-10-01 | Google Llc | Methods, systems, and media for language identification of a media content item based on comments |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
CN107526742B (zh) * | 2016-06-21 | 2021-10-08 | 伊姆西Ip控股有限责任公司 | 用于处理多语言文本的方法和设备 |
US9898457B1 (en) * | 2016-10-03 | 2018-02-20 | Microsoft Technology Licensing, Llc | Identifying non-natural language for content analysis |
CN106910501B (zh) * | 2017-02-27 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 文本实体提取方法及装置 |
KR101946836B1 (ko) * | 2017-03-28 | 2019-04-29 | 주식회사 와이즈넛 | 언어 판별 장치 및 방법 |
US10789410B1 (en) * | 2017-06-26 | 2020-09-29 | Amazon Technologies, Inc. | Identification of source languages for terms |
US10984788B2 (en) * | 2017-08-18 | 2021-04-20 | Blackberry Limited | User-guided arbitration of speech processing results |
US10964318B2 (en) | 2017-08-18 | 2021-03-30 | Blackberry Limited | Dialogue management |
US10497370B2 (en) | 2017-08-18 | 2019-12-03 | 2236008 Ontario Inc. | Recognition module affinity |
CN112334974A (zh) * | 2018-10-11 | 2021-02-05 | 谷歌有限责任公司 | 使用跨语言音素映射的语音生成 |
US11410641B2 (en) * | 2018-11-28 | 2022-08-09 | Google Llc | Training and/or using a language selection model for automatically determining language for speech recognition of spoken utterance |
CN109934251B (zh) * | 2018-12-27 | 2021-08-06 | 国家计算机网络与信息安全管理中心广东分中心 | 一种用于小语种文本识别的方法、识别系统及存储介质 |
CN110491375B (zh) * | 2019-08-22 | 2022-02-01 | 新疆科大讯飞信息科技有限责任公司 | 一种目标语种检测的方法和装置 |
CN111368918B (zh) * | 2020-03-04 | 2024-01-05 | 拉扎斯网络科技(上海)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
US11620547B2 (en) | 2020-05-19 | 2023-04-04 | Oracle International Corporation | Estimating number of distinct values in a data set using machine learning |
US20210374778A1 (en) * | 2020-06-02 | 2021-12-02 | Express Scripts Strategic Development, Inc. | User experience management system |
US11537594B2 (en) * | 2021-02-05 | 2022-12-27 | Oracle International Corporation | Approximate estimation of number of distinct keys in a multiset using a sample |
US11520834B1 (en) | 2021-07-28 | 2022-12-06 | Oracle International Corporation | Chaining bloom filters to estimate the number of keys with low frequencies in a dataset |
US20230162520A1 (en) * | 2021-11-23 | 2023-05-25 | Abbyy Development Inc. | Identifying writing systems utilized in documents |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232866A (ja) * | 1996-12-04 | 1998-09-02 | Canon Inc | データ処理方法及び装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5392419A (en) | 1992-01-24 | 1995-02-21 | Hewlett-Packard Company | Language identification system and method for a peripheral unit |
US6029124A (en) * | 1997-02-21 | 2000-02-22 | Dragon Systems, Inc. | Sequential, nonparametric speech recognition and speaker identification |
TW421750B (en) * | 1997-03-14 | 2001-02-11 | Omron Tateisi Electronics Co | Language identification device, language identification method and storage media recorded with program of language identification |
US6415250B1 (en) * | 1997-06-18 | 2002-07-02 | Novell, Inc. | System and method for identifying language using morphologically-based techniques |
US6047251A (en) * | 1997-09-15 | 2000-04-04 | Caere Corporation | Automatic language identification system for multilingual optical character recognition |
US6157905A (en) * | 1997-12-11 | 2000-12-05 | Microsoft Corporation | Identifying language and character set of data representing text |
US6272456B1 (en) * | 1998-03-19 | 2001-08-07 | Microsoft Corporation | System and method for identifying the language of written text having a plurality of different length n-gram profiles |
JP2001249922A (ja) * | 1999-12-28 | 2001-09-14 | Matsushita Electric Ind Co Ltd | 単語分割方式及び装置 |
DE60044423D1 (de) * | 2000-02-03 | 2010-07-01 | Hitachi Ltd | Verfahren und Gerät zum Wiederauffinden und Ausgeben von Dokumenten und Speichermedium mit entspechendem Program |
GB2391967A (en) * | 2002-08-16 | 2004-02-18 | Canon Kk | Information analysing apparatus |
-
2005
- 2005-02-11 US US11/056,707 patent/US8027832B2/en not_active Expired - Fee Related
-
2006
- 2006-01-05 KR KR1020060001193A patent/KR101265803B1/ko active IP Right Grant
- 2006-01-12 EP EP20060100279 patent/EP1691299A3/en not_active Ceased
- 2006-01-16 CN CN2006100054473A patent/CN1819018B/zh not_active Expired - Fee Related
- 2006-02-13 JP JP2006035607A patent/JP5173141B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232866A (ja) * | 1996-12-04 | 1998-09-02 | Canon Inc | データ処理方法及び装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014517428A (ja) * | 2011-06-24 | 2014-07-17 | グーグル・インコーポレーテッド | 検索クエリのソース言語を検出すること |
JP2015534171A (ja) * | 2012-09-18 | 2015-11-26 | タッチタイプ リミテッド | 電子文字列をフォーマットするためのフォーマットモジュール、システム及び方法 |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US10346543B2 (en) | 2013-02-08 | 2019-07-09 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US10366170B2 (en) | 2013-02-08 | 2019-07-30 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10417351B2 (en) | 2013-02-08 | 2019-09-17 | Mz Ip Holdings, Llc | Systems and methods for multi-user mutli-lingual communications |
US10614171B2 (en) | 2013-02-08 | 2020-04-07 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10657333B2 (en) | 2013-02-08 | 2020-05-19 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10685190B2 (en) | 2013-02-08 | 2020-06-16 | Mz Ip Holdings, Llc | Systems and methods for multi-user multi-lingual communications |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
JP2017532684A (ja) * | 2014-10-17 | 2017-11-02 | マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. | 言語検出を行うためのシステムおよび方法 |
US10699073B2 (en) | 2014-10-17 | 2020-06-30 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10769387B2 (en) | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
JP2019215876A (ja) * | 2019-07-03 | 2019-12-19 | エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc | 言語検出を行うためのシステムおよび方法 |
Also Published As
Publication number | Publication date |
---|---|
KR101265803B1 (ko) | 2013-05-20 |
EP1691299A3 (en) | 2007-01-24 |
JP5173141B2 (ja) | 2013-03-27 |
US20060184357A1 (en) | 2006-08-17 |
KR20060091051A (ko) | 2006-08-17 |
US8027832B2 (en) | 2011-09-27 |
CN1819018B (zh) | 2012-04-18 |
EP1691299A2 (en) | 2006-08-16 |
CN1819018A (zh) | 2006-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5173141B2 (ja) | 効率のよい言語識別 | |
JP4701292B2 (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
Snyder et al. | A statistical model for lost language decipherment | |
WO2019214149A1 (zh) | 文本关键信息的识别方法、电子装置及可读存储介质 | |
US9348809B1 (en) | Modifying a tokenizer based on pseudo data for natural language processing | |
Zouaghi et al. | Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation | |
JP5379138B2 (ja) | 領域辞書の作成 | |
Samanta et al. | A simple real-word error detection and correction using local word bigram and trigram | |
JP2006216044A (ja) | 辞書学習方法、その利用する装置、及び入力方法とその方法を利用するユーザ端末装置 | |
Darwish et al. | Using Stem-Templates to Improve Arabic POS and Gender/Number Tagging. | |
Khan et al. | A light weight stemmer for Urdu language: a scarce resourced language | |
Dahab et al. | A comparative study on Arabic stemmers | |
Ahmed et al. | Revised n-gram based automatic spelling correction tool to improve retrieval effectiveness | |
US7136803B2 (en) | Japanese virtual dictionary | |
EP3598321A1 (en) | Method for parsing natural language text with constituent construction links | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
Saharia et al. | Analysis and evaluation of stemming algorithms: a case study with Assamese | |
Chinnakotla et al. | Transliteration for resource-scarce languages | |
CN113743090B (zh) | 一种关键词提取方法及装置 | |
US8224642B2 (en) | Automated identification of documents as not belonging to any language | |
JP2014146312A (ja) | 強化言語モデル表現を使用するフレーズベース機械翻訳におけるサンプリングおよび最適化 | |
JPWO2007010836A1 (ja) | コミュニティ特有表現検出装置及び方法 | |
Piskorski et al. | Lemmatization of Polish person names | |
JP3369127B2 (ja) | 形態素解析装置 | |
Shah et al. | A unique word prediction system for text entry in Hindi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120213 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120720 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121120 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20121121 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121127 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20121121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5173141 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |