JP2021096838A - 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 - Google Patents
多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 Download PDFInfo
- Publication number
- JP2021096838A JP2021096838A JP2020190963A JP2020190963A JP2021096838A JP 2021096838 A JP2021096838 A JP 2021096838A JP 2020190963 A JP2020190963 A JP 2020190963A JP 2020190963 A JP2020190963 A JP 2020190963A JP 2021096838 A JP2021096838 A JP 2021096838A
- Authority
- JP
- Japan
- Prior art keywords
- word
- paraphrase
- polysemous
- words
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
前記ソース言語テキストから多義語を認識するステップと、前記多義語の各パラフレーズに対応する関連語をクエリするステップと、前記ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するステップと、前記多義語を前記ターゲットパラフレーズに翻訳するステップと、を含む多義語の翻訳方法を提供する。
本出願の第5の態様の実施例は、コンピュータに上記の実施例に記載の多義語の翻訳方法を実行させるコンピュータプログラムを提供する。
ステップ101において、ソース言語テキストを取得する。
ステップ201において、コーパスの各サンプルから、原文に多義語が含まれるターゲットサンプルを決定する。
ステップ301において、各候補語について、各パラフレーズの単語ベクトルを決定する。
図4は、本出願の実施例に係る多義語の翻訳装置の概略構成図である。
図4に示すように、当該多義語の翻訳装置400は、取得モジュール410、認識モジュール420、クエリモジュール430、決定モジュール440、及び翻訳モジュール450を備えることができる。
認識モジュール420は、ソース言語テキストから多義語を認識するように構成される。
決定モジュール440は、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するように構成される。
翻訳モジュール450は、多義語をターゲットパラフレーズに翻訳するように構成される。
図5に示すように、本出願の実施例に係る多義語の翻訳方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
Claims (11)
- ソース言語テキストを取得するステップと、
前記ソース言語テキストから多義語を認識するステップと、
前記多義語の各パラフレーズに対応する関連語をクエリするステップと、
前記ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するステップと、
前記多義語を前記ターゲットパラフレーズに翻訳するステップと、
を含む多義語の翻訳方法。 - 前記多義語の各パラフレーズに対応する関連語をクエリするステップの前に、
コーパスの各サンプルから、原文に前記多義語が含まれるターゲットサンプルを決定するステップと、
前記ターゲットサンプルの原文における前記多義語以外の単語に基づいて、複数の候補語を決定するステップと、
各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップであって、前記各パラフレーズとの関連度とは、原文に前記多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を指すステップと、
各パラフレーズについて、各候補語の逆文書頻度、及び各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定するステップと、
を含む請求項1に記載の多義語の翻訳方法。 - 前記各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップが、
一つの候補語について、前記コーパスを統計して、原文に前記多義語と前記一つの候補語とが含まれ、且つ対応する翻訳文にパラフレーズ(Ti)が含まれるサンプルの個数(yi)を決定するステップであって、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、前記多義語のパラフレーズの総数であるステップと、
原文に前記多義語が含まれ、且つ対応する翻訳文にパラフレーズ(Ti)が含まれるサンプルの個数(Yi)を決定するステップと、
前記トレーニングサンプルの個数(yi)とトレーニングサンプルの個数(Yi)との比に基づいて、前記一つの候補語とパラフレーズ(Ti)との関連度を決定するステップと、
を含む請求項2に記載の多義語の翻訳方法。 - 各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップが、
一つの候補語について、前記コーパスを統計して、原文に前記一つの候補語が含まれるサンプルの個数と、前記コーパスに含まれるサンプルの総数とを決定するステップと、
前記サンプルの総数と原文に前記一つの候補語が含まれるサンプルの個数との比に基づいて、前記逆文書頻度を決定するステップと、
を含む請求項2に記載の多義語の翻訳方法。 - 各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップの前に、
各前記候補語について、各パラフレーズの単語ベクトルを決定するステップと、
各パラフレーズの単語ベクトル間の類似距離に基づいて、対応する候補語の各パラフレーズをマージするステップと、
を含む請求項2に記載の多義語の翻訳方法。 - 前記ソース言語テキストから多義語を認識するステップが、
多義語データベースに基づいて、前記ソース言語テキストから、前記多義語を認識するステップを含み、
前記多義語データベースが、各単語の単語多義確率に基づいて決定され、前記多義語の前記単語多義確率が、設定された閾値よりも大きく、
前記単語多義確率が、対応する単語(e)が各パラフレーズ(Ti)に翻訳される確率(P)(e|Ti)と、各パラフレーズ(Ti)が対応する単語(e)に翻訳される確率(P)(Ti|e)と、を含み、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、前記多義語のパラフレーズの総数である請求項1から5のいずれか一項に記載の多義語の翻訳方法。 - ソース言語テキストを取得するように構成される取得モジュールと、
前記ソース言語テキストから多義語を認識するように構成される認識モジュールと、
前記多義語の各パラフレーズに対応する関連語をクエリするように構成されるクエリモジュールと、
前記ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するように構成される決定モジュールと、
前記多義語を前記ターゲットパラフレーズに翻訳するように構成される翻訳モジュールと、
を備える多義語の翻訳装置。 - コーパスの各サンプルから、原文に前記多義語が含まれるターゲットサンプルを決定するように構成されるサンプル処理モジュールと、
前記ターゲットサンプルの原文における前記多義語以外の単語に基づいて、複数の候補語を決定するように構成される選択モジュールと、
各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するように構成される算出モジュールであって、前記各パラフレーズとの関連度とは、原文に前記多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を指す算出モジュールと、
各パラフレーズについて、各候補語の逆文書頻度、各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定するように構成される関連モジュールと、
を含む請求項7に記載の多義語の翻訳装置。 - 少なくとも一つのプロセッサと、該少なくとも一つのプロセッサに通信可能に接続されるメモリと、を備える電子機器であって、
前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、請求項1から6のいずれか一項に記載の多義語の翻訳方法を実行可能である電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項1から6のいずれか一項に記載の多義語の翻訳方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータに請求項1から6のいずれか一項に記載の多義語の翻訳方法を実行させるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911309770.3A CN110991196B (zh) | 2019-12-18 | 2019-12-18 | 多义词的翻译方法、装置、电子设备及介质 |
CN201911309770.3 | 2019-12-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021096838A true JP2021096838A (ja) | 2021-06-24 |
JP7196145B2 JP7196145B2 (ja) | 2022-12-26 |
Family
ID=70095331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020190963A Active JP7196145B2 (ja) | 2019-12-18 | 2020-11-17 | 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11275904B2 (ja) |
JP (1) | JP7196145B2 (ja) |
CN (1) | CN110991196B (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991196B (zh) * | 2019-12-18 | 2021-10-26 | 北京百度网讯科技有限公司 | 多义词的翻译方法、装置、电子设备及介质 |
CN111652005B (zh) * | 2020-05-27 | 2023-04-25 | 沙塔尔江·吾甫尔 | 汉语与乌尔都语同步互译系统及方法 |
CN111859996B (zh) * | 2020-06-16 | 2024-03-26 | 北京百度网讯科技有限公司 | 机器翻译模型的训练方法、装置、电子设备及存储介质 |
CN111859998A (zh) * | 2020-06-18 | 2020-10-30 | 北京百度网讯科技有限公司 | 篇章翻译的方法、装置、电子设备和可读存储介质 |
CN111738022B (zh) * | 2020-06-23 | 2023-04-18 | 中国船舶工业综合技术经济研究院 | 一种国防军工领域机器翻译优化方法及系统 |
KR20220056004A (ko) * | 2020-10-27 | 2022-05-04 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11972759B2 (en) * | 2020-12-02 | 2024-04-30 | International Business Machines Corporation | Audio mistranscription mitigation |
CN113191163B (zh) * | 2021-05-21 | 2023-06-30 | 北京有竹居网络技术有限公司 | 一种翻译方法、翻译装置、翻译设备以及存储介质 |
CN113723116B (zh) * | 2021-08-25 | 2024-02-13 | 中国科学技术大学 | 文本翻译方法及相关装置、电子设备、存储介质 |
CN117313754B (zh) * | 2023-11-24 | 2024-01-30 | 深圳市贝铂智能科技有限公司 | 智能翻译方法、装置以及翻译机 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6470875A (en) * | 1987-09-11 | 1989-03-16 | Hitachi Ltd | Translation processor having dictionary data converging function |
JPH05242138A (ja) * | 1991-12-30 | 1993-09-21 | American Teleph & Telegr Co <Att> | 単語ディスアンビギュエーション装置及び方法 |
JP2019012468A (ja) * | 2017-06-30 | 2019-01-24 | 富士通株式会社 | 語義特定プログラム、情報生成プログラム、語義特定方法、情報生成方法、語義特定装置および情報生成装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH083815B2 (ja) * | 1985-10-25 | 1996-01-17 | 株式会社日立製作所 | 自然言語の共起関係辞書保守方法 |
US5416696A (en) * | 1989-12-27 | 1995-05-16 | Kabushiki Kaisha Toshiba | Method and apparatus for translating words in an artificial neural network |
JP2814634B2 (ja) * | 1989-12-29 | 1998-10-27 | 松下電器産業株式会社 | 機械翻訳装置 |
US5659764A (en) * | 1993-02-25 | 1997-08-19 | Hitachi, Ltd. | Sign language generation apparatus and sign language translation apparatus |
JP2821840B2 (ja) * | 1993-04-28 | 1998-11-05 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置 |
EP0856175A4 (en) * | 1995-08-16 | 2000-05-24 | Univ Syracuse | SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON |
US6233545B1 (en) * | 1997-05-01 | 2001-05-15 | William E. Datig | Universal machine translator of arbitrary languages utilizing epistemic moments |
US6189002B1 (en) * | 1998-12-14 | 2001-02-13 | Dolphin Search | Process and system for retrieval of documents using context-relevant semantic profiles |
US20080300856A1 (en) * | 2001-09-21 | 2008-12-04 | Talkflow Systems, Llc | System and method for structuring information |
US7739102B2 (en) * | 2003-10-08 | 2010-06-15 | Bender Howard J | Relationship analysis system and method for semantic disambiguation of natural language |
US7620539B2 (en) * | 2004-07-12 | 2009-11-17 | Xerox Corporation | Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing |
US7822768B2 (en) * | 2004-11-23 | 2010-10-26 | International Business Machines Corporation | System and method for automating data normalization using text analytics |
US20070073678A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Semantic document profiling |
US7765098B2 (en) * | 2005-04-26 | 2010-07-27 | Content Analyst Company, Llc | Machine translation using vector space representations |
US20070073745A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
CN101408873A (zh) * | 2007-10-09 | 2009-04-15 | 劳英杰 | 全范围语义信息综合认知系统及其应用 |
KR100956794B1 (ko) * | 2008-08-28 | 2010-05-11 | 한국전자통신연구원 | 다단계 용언구 패턴을 적용한 번역장치와 이를 위한적용방법 및 추출방법 |
US20120059713A1 (en) * | 2010-08-27 | 2012-03-08 | Adchemy, Inc. | Matching Advertisers and Users Based on Their Respective Intents |
TWI528193B (zh) * | 2010-11-12 | 2016-04-01 | 語意結合系統公司 | 可用以產生字、詞及句子之合成複數個字訊息之依序多意義觸感符號 |
RU2487403C1 (ru) * | 2011-11-30 | 2013-07-10 | Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук | Способ построения семантической модели документа |
JP2017511914A (ja) * | 2014-01-28 | 2017-04-27 | ゾモル・ツォルツィン・ゲーエムベーハーSomol Zorzin GmbH | テキストの意味を自動検出して一義性を自動測定する方法 |
CN104572633A (zh) * | 2014-12-25 | 2015-04-29 | 语联网(武汉)信息技术有限公司 | 一种确定多义词词义的方法 |
CN105718443A (zh) * | 2016-01-26 | 2016-06-29 | 齐鲁工业大学 | 一种基于依存词汇关联度的形容词词义消歧方法 |
JP6706810B2 (ja) * | 2016-12-13 | 2020-06-10 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
CN109726385A (zh) * | 2017-10-31 | 2019-05-07 | 株式会社Ntt都科摩 | 词义消歧方法和设备、词义扩展方法和装置 |
CN108920467B (zh) * | 2018-08-01 | 2021-04-27 | 北京三快在线科技有限公司 | 多义词词义学习方法及装置、搜索结果显示方法 |
CN110991196B (zh) * | 2019-12-18 | 2021-10-26 | 北京百度网讯科技有限公司 | 多义词的翻译方法、装置、电子设备及介质 |
-
2019
- 2019-12-18 CN CN201911309770.3A patent/CN110991196B/zh active Active
-
2020
- 2020-05-06 US US16/868,426 patent/US11275904B2/en active Active
- 2020-11-17 JP JP2020190963A patent/JP7196145B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6470875A (en) * | 1987-09-11 | 1989-03-16 | Hitachi Ltd | Translation processor having dictionary data converging function |
JPH05242138A (ja) * | 1991-12-30 | 1993-09-21 | American Teleph & Telegr Co <Att> | 単語ディスアンビギュエーション装置及び方法 |
JP2019012468A (ja) * | 2017-06-30 | 2019-01-24 | 富士通株式会社 | 語義特定プログラム、情報生成プログラム、語義特定方法、情報生成方法、語義特定装置および情報生成装置 |
Also Published As
Publication number | Publication date |
---|---|
US11275904B2 (en) | 2022-03-15 |
CN110991196A (zh) | 2020-04-10 |
JP7196145B2 (ja) | 2022-12-26 |
CN110991196B (zh) | 2021-10-26 |
US20210192147A1 (en) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7196145B2 (ja) | 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
KR102557681B1 (ko) | 시계열 지식그래프 생성 방법, 장치, 기기 및 매체 | |
EP3923160A1 (en) | Method, apparatus, device and storage medium for training model | |
US11461556B2 (en) | Method and apparatus for processing questions and answers, electronic device and storage medium | |
EP3848819A1 (en) | Method and apparatus for retrieving video, device and medium | |
US11403468B2 (en) | Method and apparatus for generating vector representation of text, and related computer device | |
CN110427627B (zh) | 基于语义表示模型的任务处理方法和装置 | |
US20210390260A1 (en) | Method, apparatus, device and storage medium for matching semantics | |
EP3933657A1 (en) | Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium | |
JP2021184237A (ja) | データセット処理方法、装置、電子機器及び記憶媒体 | |
CN111401033B (zh) | 事件抽取方法、事件抽取装置和电子设备 | |
KR102565673B1 (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
US11907671B2 (en) | Role labeling method, electronic device and storage medium | |
US20210200813A1 (en) | Human-machine interaction method, electronic device, and storage medium | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
JP2021111420A (ja) | テキストエンティティの語義記述処理方法、装置及び機器 | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
CN111831814B (zh) | 摘要生成模型的预训练方法、装置、电子设备和存储介质 | |
CN112380855B (zh) | 确定语句通顺度的方法、确定概率预测模型的方法和装置 | |
CN112528681A (zh) | 跨语言检索及模型训练方法、装置、设备和存储介质 | |
CN111708800A (zh) | 查询方法、装置及电子设备 | |
US11893977B2 (en) | Method for recognizing Chinese-English mixed speech, electronic device, and storage medium | |
CN111753542B (zh) | 文本语句的处理方法和装置、电子设备及存储介质 | |
CN113221550B (zh) | 文本过滤方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220119 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221005 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221024 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221025 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7196145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |