JP6553180B2 - 言語検出を行うためのシステムおよび方法 - Google Patents
言語検出を行うためのシステムおよび方法 Download PDFInfo
- Publication number
- JP6553180B2 JP6553180B2 JP2017520499A JP2017520499A JP6553180B2 JP 6553180 B2 JP6553180 B2 JP 6553180B2 JP 2017520499 A JP2017520499 A JP 2017520499A JP 2017520499 A JP2017520499 A JP 2017520499A JP 6553180 B2 JP6553180 B2 JP 6553180B2
- Authority
- JP
- Japan
- Prior art keywords
- language
- message
- methods
- score
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 208
- 238000001514 detection method Methods 0.000 title claims description 124
- 238000013515 script Methods 0.000 claims description 47
- 238000012360 testing method Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 24
- 230000036541 health Effects 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 description 22
- 238000012549 training Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本開示は、言語の検出に関し、特に短文メッセージの言語を検出するためのシステムおよび方法に関する。
本開示に記載のシステムおよび方法の実施形態は、例えば、テキストメッセージの内容、テキストメッセージを作成するときに使用されたキーボードに関する情報、および/またはテキストメッセージを作成したユーザの言語嗜好に関する情報に基づいて、メッセージの言語を検出する。従来の言語検出技術に比べて、本開示に記載のシステムおよび方法は、特に短い(例えば、4つの単語以下の)テキストメッセージに対して、一般的により高速且つより正確である。
一般的に、メッセージの言語情報(例えば、クライアント装置からのキーボード情報)が欠落、変形または信頼できない場合に、本開示に記載の言語検出システムおよび言語検出方法を用いて、テキストメッセージの言語を特定することができる。本発明のシステムおよび方法は、1つの言語から別の言語にテキストメッセージを翻訳するために使用される言語翻訳方法の精度を向上させる。一般的に、言語の翻訳は、ソース言語を正確に特定することを必要とする。さもなければ、翻訳結果が不精確になる可能性がある。
Claims (30)
- メッセージの言語を特定するためのコンピュータ実施方法であって、
ユーザに関連するメッセージに対して、複数の異なる言語検出テストを実行するステップを含み、各言語検出テストは、それぞれ一組のスコアであるスコアセットを決定し、前記スコアセット内の各スコアは、メッセージが複数の異なる言語のうち1つの言語である尤度を表し、前記複数の異なる言語検出テストの中の少なくとも1つの言語検出テストは前記メッセージの長さに従って選択され、前記方法はさらに、
前記スコアセットの1つ以上の組み合わせを入力として1つ以上の異なる分類器に与えるステップと、
前記1つ以上の分類器の各々からの出力として、前記メッセージが前記複数の異なる言語のうち1つの言語であるという提示を取得するステップとを含み、前記提示は、信用度スコアを含み、前記方法はさらに、
前記信用度スコアおよび特定された言語分野のうち少なくとも一方に基づいて、前記メッセージの前記言語を、前記1つ以上の分類器のうちの1つの分類器により提示された言語として特定するステップを含む、コンピュータ実施方法。 - 特定の分類器は、教師付き学習モデル、部分教師付き学習モデル、教師なし学習モデル、または補間法である、請求項1に記載の方法。
- 前記メッセージの前記言語を特定するステップは、前記信用度スコアに基づいて、前記提示された言語を選択することを含む、請求項1または請求項2に記載の方法。
- 前記メッセージの前記言語を特定するステップは、前記特定された言語分野に基づいて、前記分類器を選択することを含む、請求項1〜請求項3のいずれか1項に記載の方法。
- 前記言語分野は、ビデオゲーム、スポーツ、ニュース、議事、政治、健康、および旅行からなる群から選択される、請求項1〜請求項4のいずれか1項に記載の方法。
- 前記メッセージは、文字、数字、記号および顔文字のうち2種以上を含む、請求項1〜請求項5のいずれか1項に記載の方法。
- 前記複数の異なる言語検出テストは、バイトn-gramメソッド、辞書に基づくメソッド、アルファベットに基づくメソッド、スクリプトに基づくメソッド、およびユーザ言語プロファイルメソッドからなる群から選択される少なくとも2つのメソッドを含む、請求項1〜請求項6のいずれか1項に記載の方法。
- 前記複数の異なる言語検出テストは、同時に実行される、請求項1〜請求項7のいずれか1項に記載の方法。
- 前記1つ以上の組み合わせは、バイトn-gramメソッドおよび辞書に基づくメソッドから得られたスコアセットを含む、請求項1〜請求項8のいずれか1項に記載の方法。
- 前記1つ以上の組み合わせは、ユーザ言語プロファイルメソッドおよびアルファベットに基づくメソッドのうち、少なくとも1つのメソッドから得られたスコアセットをさらに含む、請求項8に記載の方法。
- メッセージの言語を特定するためのシステムであって、
命令を記憶するコンピュータ記憶装置と、
前記命令を実行して以下の動作を実行するように構成されたデータ処理装置とを備え、
前記動作は、
ユーザに関連するメッセージに対して、複数の異なる言語検出テストを実行することを含み、各言語検出テストは、それぞれ一組のスコアであるスコアセットを決定し、前記スコアセット内の各スコアは、メッセージが複数の異なる言語のうち1つの言語である尤度を表し、前記複数の異なる言語検出テストの中の少なくとも1つの言語検出テストは前記メッセージの長さに従って選択され、前記動作はさらに、
前記スコアセットの1つ以上の組み合わせを入力として1つ以上の異なる分類器に与えることと、
前記1つ以上の分類器の各々からの出力として、前記メッセージが前記複数の異なる言語のうち1つの言語であるという提示を取得することとを含み、前記提示は、信用度スコアを含み、前記動作はさらに、
前記信用度スコアおよび特定された言語分野のうち少なくとも一方に基づいて、前記メッセージの前記言語を、前記1つ以上の分類器のうちの1つの分類器により提示された言語として特定することを含む、システム。 - 特定の分類器は、教師付き学習モデル、部分教師付き学習モデル、教師なし学習モデル、または補間法である、請求項11に記載のシステム。
- 前記メッセージの前記言語を特定することは、前記信用度スコアに基づいて、前記提示された言語を選択することを含む、請求項11または請求項12に記載のシステム。
- 前記メッセージの前記言語を特定することは、前記特定された言語分野に基づいて、前記分類器を選択することを含む、請求項11〜請求項13のいずれか1項に記載のシステム。
- 前記言語分野は、ビデオゲーム、スポーツ、ニュース、議事、政治、健康、および旅行からなる群から選択される、請求項11〜請求項14のいずれか1項に記載のシステム。
- 前記メッセージは、文字、数字、記号、および顔文字のうち2種以上を含む、請求項11〜請求項15のいずれか1項に記載のシステム。
- 前記複数の異なる言語検出テストは、バイトn-gramメソッド、辞書に基づくメソッド、アルファベットに基づくメソッド、スクリプトに基づくメソッド、およびユーザ言語プロファイルメソッドからなる群から選択される少なくとも2つのメソッドを含む、請求項11〜請求項16のいずれか1項に記載のシステム。
- 前記複数の異なる言語検出テストは、同時に実行される、請求項11〜請求項17のいずれか1項に記載のシステム。
- 前記1つ以上の組み合わせは、バイトn-gramメソッドおよび辞書に基づくメソッドから得られたスコアセットを含む、請求項11〜請求項18のいずれか1項に記載のシステム。
- 前記1つ以上の組み合わせは、ユーザ言語プロファイルメソッドおよびアルファベットに基づくメソッドのうち、少なくとも1つのメソッドから得られたスコアセットをさらに含む、請求項18に記載のシステム。
- 1つ以上のプロセッサによって、データ処理装置の処理モードを制御するために実行されるコンピュータプログラムであって、
前記コンピュータプログラムは、前記1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに以下の動作を実行させ、
前記動作は、
ユーザに関連するメッセージに対して、複数の異なる言語検出テストを実行することを含み、各言語検出テストは、それぞれ一組のスコアであるスコアセットを決定し、前記スコアセット内の各スコアは、メッセージが複数の異なる言語のうち1つの言語である尤度を表し、前記複数の異なる言語検出テストの中の少なくとも1つの言語検出テストは前記メッセージの長さに従って選択され、前記動作はさらに、
前記スコアセットの1つ以上の組み合わせを入力として1つ以上の異なる分類器に与えることと、
前記1つ以上の分類器の各々からの出力として、前記メッセージが前記複数の異なる言語のうち1つの言語であるという提示を取得することとを含み、前記提示は、信用度スコアを含み、前記動作はさらに、
前記信用度スコアおよび特定された言語分野のうち少なくとも一方に基づいて、前記メッセージの前記言語を、前記1つ以上の分類器のうちの1つの分類器により提示された言語として特定することを含む、コンピュータプログラム。 - 特定の分類器は、教師付き学習モデル、部分教師付き学習モデル、教師なし学習モデル、または補間法である、請求項21に記載のコンピュータプログラム。
- 前記メッセージの前記言語を特定することは、前記信用度スコアに基づいて、前記提示された言語を選択することを含む、請求項21または請求項22に記載のコンピュータプログラム。
- 前記メッセージの前記言語を特定することは、前記特定された言語分野に基づいて、前記分類器を選択することを含む、請求項21〜請求項23のいずれか1項に記載のコンピュータプログラム。
- 前記言語分野は、ビデオゲーム、スポーツ、ニュース、議事、政治、健康、および旅行からなる群から選択される、請求項21〜請求項24のいずれか1項に記載のコンピュータプログラム。
- 前記メッセージは、文字、数字、記号、および顔文字のうち2種以上を含む、請求項21〜請求項25のいずれか1項に記載のコンピュータプログラム。
- 前記複数の異なる言語検出テストは、バイトn-gramメソッド、辞書に基づくメソッド、アルファベットに基づくメソッド、スクリプトに基づくメソッド、およびユーザ言語プロファイルメソッドからなる群から選択される少なくとも2つのメソッドを含む、請求項21〜請求項26のいずれか1項に記載のコンピュータプログラム。
- 前記複数の異なる言語検出テストは、同時に実行される、請求項21〜請求項27のいずれか1項に記載のコンピュータプログラム。
- 前記1つ以上の組み合わせは、バイトn-gramメソッドおよび辞書に基づくメソッドから得られたスコアセットを含む、請求項21〜請求項28のいずれか1項に記載のコンピュータプログラム。
- 前記1つ以上の組み合わせは、ユーザ言語プロファイルメソッドおよびアルファベットに基づくメソッドのうち、少なくとも1つのメソッドから得られたスコアセットをさらに含む、請求項28に記載のコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2014/061141 WO2016060687A1 (en) | 2014-10-17 | 2014-10-17 | System and method for language detection |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019124513A Division JP2019215876A (ja) | 2019-07-03 | 2019-07-03 | 言語検出を行うためのシステムおよび方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017532684A JP2017532684A (ja) | 2017-11-02 |
JP6553180B2 true JP6553180B2 (ja) | 2019-07-31 |
Family
ID=51842910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017520499A Expired - Fee Related JP6553180B2 (ja) | 2014-10-17 | 2014-10-17 | 言語検出を行うためのシステムおよび方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP3207465A1 (ja) |
JP (1) | JP6553180B2 (ja) |
CN (1) | CN107111607B (ja) |
AU (1) | AU2014409115A1 (ja) |
CA (1) | CA2964331A1 (ja) |
WO (1) | WO2016060687A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019535082A (ja) * | 2016-10-03 | 2019-12-05 | エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc | 言語検出のためのシステムおよび方法 |
CN107205089A (zh) * | 2017-05-26 | 2017-09-26 | 广东欧珀移动通信有限公司 | 消息发送方法及相关产品 |
CN108009156B (zh) * | 2017-12-27 | 2020-05-19 | 成都信息工程大学 | 一种基于部分监督学习的中文概括性文本切分方法 |
CN109934251B (zh) * | 2018-12-27 | 2021-08-06 | 国家计算机网络与信息安全管理中心广东分中心 | 一种用于小语种文本识别的方法、识别系统及存储介质 |
US11475054B2 (en) | 2020-04-24 | 2022-10-18 | Roblox Corporation | Language detection of user input text for online gaming |
US11392768B2 (en) * | 2020-05-07 | 2022-07-19 | Servicenow, Inc. | Hybrid language detection model |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167369A (en) * | 1998-12-23 | 2000-12-26 | Xerox Company | Automatic language identification using both N-gram and word information |
US8849648B1 (en) * | 2002-12-24 | 2014-09-30 | At&T Intellectual Property Ii, L.P. | System and method of extracting clauses for spoken language understanding |
US8027832B2 (en) * | 2005-02-11 | 2011-09-27 | Microsoft Corporation | Efficient language identification |
JP2006302091A (ja) * | 2005-04-22 | 2006-11-02 | Konica Minolta Photo Imaging Inc | 翻訳装置及びそのプログラム |
US20060287848A1 (en) * | 2005-06-20 | 2006-12-21 | Microsoft Corporation | Language classification with random feature clustering |
US8185376B2 (en) * | 2006-03-20 | 2012-05-22 | Microsoft Corporation | Identifying language origin of words |
US8442965B2 (en) * | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US7552045B2 (en) * | 2006-12-18 | 2009-06-23 | Nokia Corporation | Method, apparatus and computer program product for providing flexible text based language identification |
US8548797B2 (en) * | 2008-10-30 | 2013-10-01 | Yahoo! Inc. | Short text language detection using geographic information |
CN101645269A (zh) * | 2008-12-30 | 2010-02-10 | 中国科学院声学研究所 | 一种语种识别系统及方法 |
US20110071817A1 (en) * | 2009-09-24 | 2011-03-24 | Vesa Siivola | System and Method for Language Identification |
JP5545467B2 (ja) * | 2009-10-21 | 2014-07-09 | 独立行政法人情報通信研究機構 | 音声翻訳システム、制御装置、および情報処理方法 |
JP5672487B2 (ja) * | 2010-11-11 | 2015-02-18 | 株式会社国際電気通信基礎技術研究所 | 音声言語識別装置の学習装置、音声言語の識別装置、及びそれらのためのプログラム |
CN103314369B (zh) * | 2010-12-17 | 2015-08-12 | 北京交通大学 | 机器翻译装置和方法 |
US8538742B2 (en) * | 2011-05-20 | 2013-09-17 | Google Inc. | Feed translation for a social network |
US8838437B1 (en) * | 2011-06-30 | 2014-09-16 | Google Inc. | Language classifiers for language detection |
US8832092B2 (en) * | 2012-02-17 | 2014-09-09 | Bottlenose, Inc. | Natural language processing optimized for micro content |
CN103077709B (zh) * | 2012-12-28 | 2015-09-09 | 中国科学院声学研究所 | 一种基于共有鉴别性子空间映射的语种识别方法及装置 |
US9600473B2 (en) * | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
-
2014
- 2014-10-17 EP EP14790972.5A patent/EP3207465A1/en not_active Withdrawn
- 2014-10-17 JP JP2017520499A patent/JP6553180B2/ja not_active Expired - Fee Related
- 2014-10-17 WO PCT/US2014/061141 patent/WO2016060687A1/en active Application Filing
- 2014-10-17 CA CA2964331A patent/CA2964331A1/en not_active Abandoned
- 2014-10-17 CN CN201480084163.0A patent/CN107111607B/zh not_active Expired - Fee Related
- 2014-10-17 AU AU2014409115A patent/AU2014409115A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN107111607A (zh) | 2017-08-29 |
AU2014409115A1 (en) | 2017-04-27 |
EP3207465A1 (en) | 2017-08-23 |
WO2016060687A1 (en) | 2016-04-21 |
JP2017532684A (ja) | 2017-11-02 |
CA2964331A1 (en) | 2016-04-21 |
CN107111607B (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9535896B2 (en) | Systems and methods for language detection | |
US10699073B2 (en) | Systems and methods for language detection | |
US10311146B2 (en) | Machine translation method for performing translation between languages | |
JP6553180B2 (ja) | 言語検出を行うためのシステムおよび方法 | |
JP5475795B2 (ja) | カスタム言語モデル | |
US9971763B2 (en) | Named entity recognition | |
JP5379138B2 (ja) | 領域辞書の作成 | |
US8380488B1 (en) | Identifying a property of a document | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
CN111460083A (zh) | 文档标题树的构建方法、装置、电子设备及存储介质 | |
CN112906392B (zh) | 一种文本增强方法、文本分类方法及相关装置 | |
CN108475264B (zh) | 机器翻译方法和装置 | |
US10282413B2 (en) | Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof | |
US9251141B1 (en) | Entity identification model training | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
JP2019535082A (ja) | 言語検出のためのシステムおよび方法 | |
JP6605997B2 (ja) | 学習装置、学習方法及びプログラム | |
WO2023245869A1 (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
JP2019215876A (ja) | 言語検出を行うためのシステムおよび方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170725 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20180720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190703 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6553180 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |