JP2021096838A - 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 - Google Patents

多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 Download PDF

Info

Publication number
JP2021096838A
JP2021096838A JP2020190963A JP2020190963A JP2021096838A JP 2021096838 A JP2021096838 A JP 2021096838A JP 2020190963 A JP2020190963 A JP 2020190963A JP 2020190963 A JP2020190963 A JP 2020190963A JP 2021096838 A JP2021096838 A JP 2021096838A
Authority
JP
Japan
Prior art keywords
word
paraphrase
polysemous
words
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020190963A
Other languages
English (en)
Other versions
JP7196145B2 (ja
Inventor
ルイキン ヂャン,
Ruiqing Zhang
ルイキン ヂャン,
チュアンキァン ヂャン,
Chuangqiang Zhang
チュアンキァン ヂャン,
ハオ シォン,
Hao Xiong
ハオ シォン,
ヂョンジュン フェ,
Zhongjun He
ヂョンジュン フェ,
フゥア ウー,
Hua Wu
フゥア ウー,
ジー リー,
Zhi Li
ジー リー,
ハイフォン ワン,
Haifeng Wang
ハイフォン ワン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021096838A publication Critical patent/JP2021096838A/ja
Application granted granted Critical
Publication of JP7196145B2 publication Critical patent/JP7196145B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】多義語が正しく翻訳できる翻訳方法、装置、電子機器及び媒体を提供する。【解決手段】多義語を正しく翻訳する翻訳方法は、ソース言語テキストを取得し、ソース言語テキストから多義語を認識し、多義語の各パラフレーズに対応する関連語をクエリし、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定し、多義語をターゲットパラフレーズに翻訳する。当該方法は、ソース言語テキストに含まれる多義語のパラフレーズに対応する関連語に基づいて、多義語を翻訳することにより、ソース言語テキストのコンテキストに基づいて多義語を翻訳することを実現し、多義語が正しく翻訳できることを確保し、誤パラフレーズが生じる状況を回避することができる。【選択図】図1

Description

本出願は、自然言語処理技術の分野における翻訳技術の分野に関し、特に、多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体に関する。
人工知能の急速な発展に伴い、翻訳分野では、多くの種類の翻訳機器が登場し、人工翻訳の効率が低い問題を解決する。大量の語彙は、すべて複数の意味を有するため、このような語彙を正確に翻訳するに際し、たとえしっかりした言語と専門的な基礎を持っている通訳者であっても、翻訳中の手落ちも避けられない。
実際に翻訳機器を使用して文章を翻訳する時、依然として多義語翻訳の誤りがあり、文章翻訳の精度が低くなる。
本出願は、関連技術における多義語翻訳の精度が低い技術的な問題を解決する多義語の翻訳方法を提供する。
本出願の第1の態様の実施例は、ソース言語テキストを取得するステップと、
前記ソース言語テキストから多義語を認識するステップと、前記多義語の各パラフレーズに対応する関連語をクエリするステップと、前記ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するステップと、前記多義語を前記ターゲットパラフレーズに翻訳するステップと、を含む多義語の翻訳方法を提供する。
本出願の実施例の第1の可能な実現形態として、前記多義語の各パラフレーズに対応する関連語をクエリするステップの前に、コーパスの各サンプルから、原文に前記多義語が含まれるターゲットサンプルを決定するステップと、前記ターゲットサンプルの原文における前記多義語以外の単語に基づいて、複数の候補語を決定するステップと、各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップであって、前記各パラフレーズとの関連度とは、原文に前記多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を指すステップと、各パラフレーズについて、各候補語の逆文書頻度、及び各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定するステップと、さらにを含む。
本出願の実施例の第2の可能な実現形態として、前記各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップが、一つの候補語について、前記コーパスを統計して、原文に前記多義語と前記一つの候補語とが含まれ、且つ対応する翻訳文にパラフレーズTiが含まれるサンプルの個数yiを決定するステップであって、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、前記多義語のパラフレーズの総数であるステップと、原文に前記多義語が含まれ、且つ対応する翻訳文にパラフレーズTiが含まれるサンプルの個数Yiを決定するステップと、前記トレーニングサンプルの個数yiとトレーニングサンプルの個数Yiとの比に基づいて、前記一つの候補語とパラフレーズTiとの関連度を決定するステップと、を含む。
本出願の実施例の第3の可能な実現形態として、前記各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップが、一つの候補語について、前記コーパスを統計して、原文に前記一つの候補語が含まれるサンプルの個数と、前記コーパスに含まれるサンプルの総数とを決定するステップと、前記サンプルの総数と原文に前記一つの候補語が含まれるサンプルの個数との比に基づいて、前記逆文書頻度を決定するステップと、を含む。
本出願の実施例の第4の可能な実現形態として、前記各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップの前に、各前記候補語について、各パラフレーズの単語ベクトルを決定するステップと、各パラフレーズの単語ベクトル間の類似距離に基づいて、対応する候補語の各パラフレーズをマージするステップと、をさらに含む。
本出願の実施例の第5の可能な実現形態として、前記ソース言語テキストから多義語を認識するステップが、多義語データベースに基づいて、前記ソース言語テキストから前記多義語を認識するステップを含み、前記多義語データベースが、各単語の単語多義確率に基づいて決定され、前記多義語の前記単語多義確率は、設定された閾値よりも大きく、前記単語多義確率が、対応する単語eが各パラフレーズTiに翻訳される確率P(e|Ti)と、各パラフレーズTiが対応する単語eに翻訳される確率P(Ti|e)と、を含み、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、前記多義語のパラフレーズの総数である。
本出願の第2の態様の実施例は、ソース言語テキストを取得するように構成される取得モジュールと、前記ソース言語テキストから多義語を認識するように構成される認識モジュールと、前記多義語の各パラフレーズに対応する関連語をクエリするように構成されるクエリモジュールと、前記ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するように構成される決定モジュールと、前記多義語を前記ターゲットパラフレーズに翻訳するように構成される翻訳モジュールと、を備える多義語の翻訳装置を提供する。
本出願の第3の態様の実施例は、少なくとも一つのプロセッサと、該少なくとも一つのプロセッサと通信可能に接続されたメモリと、を備える電子機器であって、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、上記の実施例に記載の多義語の翻訳方法を実行可能である電子機器を提供する。
本出願の第4の態様の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令が、コンピュータに上記の実施例に記載の多義語の翻訳方法を実行させるコンピュータ読み取り可能な記憶媒体を提供する。
本出願の第5の態様の実施例は、コンピュータに上記の実施例に記載の多義語の翻訳方法を実行させるコンピュータプログラムを提供する。
上記の出願の一つの実施例は、具体的には、以下のような利点又は有益な効果を有する。ソース言語テキストを取得し、ソース言語テキストから多義語を認識し、多義語の各パラフレーズに対応する関連語をクエリし、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定し、多義語をターゲットパラフレーズに翻訳する。当該方法は、ソース言語テキストに含まれる多義語のパラフレーズに対応する関連語に基づいて、多義語を翻訳することにより、ソース言語テキストのコンテキストに基づいて多義語を翻訳することを実現し、多義語が正しく翻訳できることを確保し、誤パラフレーズが生じる状況を回避することができる。
上記の選択可能な形態が有する他の効果については、具体的な実施例を組み合わせて以下に説明する。
図面は、本技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の実施例に係る多義語の翻訳方法の概略フローチャートである。 本出願の実施例に係る別の多義語の翻訳方法の概略フローチャートである。 本出願の実施例に係る別の多義語の翻訳方法の概略フローチャートである。 本出願の実施例に係る多義語の翻訳装置の概略構成図である。 本出願の実施例の多義語の翻訳方法を実現するための電子機器のブロック図である。
以下、本出願の例示的な実施例を、図面を参照して説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構成の説明を省略する。
テキストに存在する多義語を翻訳する時、翻訳の精度が低いという関連技術の技術的な問題を解決するために、本出願は、ソース言語テキストを取得し、ソース言語テキストから多義語を認識し、多義語の各パラフレーズに対応する関連語をクエリし、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定し、多義語をターゲットパラフレーズに翻訳する多義語の翻訳方法を提供する。
本出願の実施例に係る多義語の翻訳方法、多義語の翻訳装置及び電子機器について、図面を参照して以下に説明する。
図1は、本出願の実施例に係る多義語の翻訳方法の概略フローチャートである。
本出願の実施例では、当該多義語の翻訳方法が多義語の翻訳装置に構成されることを例として説明し、当該多義語の翻訳装置は任意の電子機器に適用されることにより、当該電子機器は、多義語の翻訳機能を実行することができるようになる。
ここで、電子機器は、パーソナルコンピュータ(Personal ComPuter,PCと略称する)、クラウドデバイス、モバイルデバイスなどであってもよく、モバイルデバイスは、例えば、携帯電話、タブレットコンピュータ、携帯情報端末、ウェアラブルデバイス、車載デバイスなどの様々なオペレーティングシステムを有するハードウェアデバイスであってもよい。
図1に示すように、当該多義語の翻訳方法は、以下ステップ101〜ステップ105を含むことができる。
ステップ101において、ソース言語テキストを取得する。
可能な一つの場合において、ソース言語テキストは、ユーザが手動で入力したソース言語テキスト、又は音声で入力したソース言語テキストなど、ユーザが入力したソース言語テキストであってもよく、本出願の実施例では、ユーザが入力するソース言語テキストの方式が限定されない。
別の可能な場合において、ソース言語テキストは、画像内のテキストであってもよい。例えば、電子機器がカメラによって採集した画像に含まれるテキスト、又はサーバからダウンロードした画像に含まれるテキストなど。
本出願の実施例では、ソース言語テキストは、翻訳対象テキストであり、例えば、ソース言語テキストは英語テキストである。もちろん、他の言語のテキストであってもよく、ここでは限定されない。
ステップ102において、ソース言語テキストから多義語を認識する。
ここで、多義語は、2つ以上の意味を持つ単語である。例えば、ソース言語テキストが英語である場合、shotは、射撃、銃の発砲、レンズ、写真などに翻訳できる。
本出願の実施例では、ソース言語テキストが取得された後、ソース言語テキストを認識して、多義語を取得することができる。
可能な一実現形態として、多義語データベースに基づいて、ソース言語テキストから多義語を認識することができる。ここで、多義語データベースは、各単語の単語多義確率に基づいて決定され、多義語の単語多義確率は、設定された閾値よりも大きい。
ここで、単語多義確率は、対応する単語eが各パラフレーズTiに翻訳される確率P(e|Ti)と、各パラフレーズTiが対応する単語eに翻訳される確率P(Ti|e)と、を含む。ここで、iは、多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、多義語のパラフレーズの総数である。
具体的には、まず、多義語データベースのフレーズテーブルを抽出し、次に、フレーズテーブルに基づいてソース言語テキストをフィルタリングして、多義語を取得する。例えば、多義語の単語多義確率に基づいてフレーズテーブルをスクリーニングして、単語多義確率が設定された閾値より大きい多義語を取得することができる。
なお、ソース言語テキストから、認識された多義語は一つに限定されず、ソース言語テキスト内のすべての多義語を認識して取得することができる。
ステップ103において、多義語の各パラフレーズに対応する関連語をクエリする。
ここで、関連語とは、横方向に関連する単語、並列概念が存在する単語を指す。例えば、国慶節と10月1日、映画とレンズである。
本出願の実施例では、ソース言語テキストから多義語を認識した後、コーパスで多義語の各パラフレーズに対応する関連語をクエリして取得する。
例えば、ソース言語テキストは、英語のテキストであり、例えば、「A modern movie have something along the lines of three thousand shots. Each one of these shots are a few seconds long. But it would take designers the whole time of film making to create these shots」である。ソース言語テキストから認識された多義語は「shot」であり、対応するパラフレーズは、射撃、銃の発砲、レンズ、写真、的中などであってもよい。レンズというパラフレーズに対応する関連語は、movie、filmであってもよい。射撃、銃の発砲というパラフレーズに対応する関連語は、murder dead gunであってもよい。
可能な一実現形態として、コーパスの各サンプルから、原文に多義語が含まれるターゲットサンプルを決定し、ターゲットサンプルの原文における多義語以外の単語に基づいて、複数の候補語を決定し、各候補語の各パラフレーズの関連度を決定し、各候補語から、コーパスに含まれる対応するパラフレーズに対応する関連語を決定することができる。そして、対応するパラフレーズに対応する関連語から多義語の各パラフレーズに対応する関連語をクエリする。
ステップ104において、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定する。
ここで、ターゲットパラフレーズは、多義語のソース言語テキストにおける対応するパラフレーズである。例えば、多義語shotについて、対応するパラフレーズは、射撃、銃の発砲、レンズ、写真、的中であり、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズをレンズとして決定することができる。
本出願の実施例では、多義語の各パラフレーズに対応する関連語を決定した後、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定する。
具体的には、多義語の各パラフレーズに対応する関連語を決定した後、ソース言語テキストに含まれる各パラフレーズに対応する関連語をクエリし、ソース言語テキストにはその中の一つのパラフレーズに対応する関連語が存在すると決定された後、ソース言語テキストに含まれる関連語に基づいて、多義語に対応するターゲットパラフレーズを決定することができる。
ステップ105において、多義語をターゲットパラフレーズに翻訳する。
本出願の実施例では、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定した後、多義語をターゲットパラフレーズに翻訳する。
可能な一実現形態として、ソース言語テキストの全体を翻訳する場合、ソース言語テキストから、多義語と、そのパラフレーズに対応する関連語とを認識した後、多義語を、ソース言語テキストに含まれる関連語に基づいて決定されたターゲットパラフレーズに翻訳する。
本出願の実施例に係る多義語の翻訳方法は、ソース言語テキストを取得し、ソース言語テキストから多義語を認識し、多義語の各パラフレーズに対応する関連語をクエリし、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定し、多義語をターゲットパラフレーズに翻訳する。当該方法は、ソース言語テキストに含まれる多義語のパラフレーズに対応する関連語に基づいて、多義語を翻訳することにより、ソース言語テキストのコンテキストに基づいて多義語を翻訳することを実現し、多義語が正しく翻訳できることを確保し、誤パラフレーズが生じる状況を回避することができる。
上記の実施例に基づいて、多義語の各パラフレーズに対応する関連語をクエリする上記のステップ103の前に、コーパスから各パラフレーズに対応する関連語を決定する必要がある。以下、図2を参照して上記のプロセスを詳細に説明し、図2は、本出願の実施例に係る別の多義語の翻訳方法の概略フローチャートである。
図2に示すように、当該翻訳方法は、さらに、以下のステップ201〜ステップ204を含むことができる。
ステップ201において、コーパスの各サンプルから、原文に多義語が含まれるターゲットサンプルを決定する。
ここで、コーパスに保存されたのは、言語の実際使用中に実際に出現した言語材料である。
本出願の実施例では、コーパスに様々なテキストサンプルが含まれ、ソース言語テキストから多義語を認識した後、コーパスの各サンプルから、各サンプルの原文に多義語が含まれるターゲットサンプルを決定することができる。
なお、コーパスの各サンプルの原文に多義語が含まれるサンプルをターゲットサンプルという。
ステップ202において、ターゲットサンプルの原文における多義語以外の単語に基づいて、複数の候補語を決定する。
本出願の実施例では、コーパスから、多義語が含まれるターゲットサンプルを決定した後、ターゲットサンプルの原文における多義語以外の単語に基づいて、複数の候補語を決定することができる。
例えば、ターゲットサンプルの原文には20つの単語があり、その中の一つは多義語であり、ターゲットサンプルにおける多義語以外の19つの単語から、複数の候補語を決定する。例えば、3つの候補語を決定する。
ステップ203において、各候補語について、逆文書頻度を決定し、且つ、各パラフレーズとの関連度を決定する。
ここで、各パラフレーズとの関連度とは、原文に多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を指す。
なお、単語の出現頻度−逆文書頻度(term frequency−inverse document frequency,以下、TF−IDFと略称する)は、情報検索と情報探査に用いられる一般的な重み付け技術である。TF−IDFは、一つの文字または単語が一つのドキュメントセット又は一つのコーパスのうちの一つのドキュメントに対する重要性を評価する統計的方法である。文字または単語の重要性は、ドキュメントに出現する回数に正比例して増加するが、同時に、コーパスに出現する頻度に反比例して減少する。
本出願の実施例では、各候補語について、各候補語の逆文書頻度を算出する。
可能な一実現形態として、一つの候補語について、コーパスを統計して、原文に当該候補語が含まれるサンプルの個数と、コーパスに含まれるサンプルの総数とを決定する。サンプルの総数と、原文に当該候補語が含まれるサンプルの個数との比に基づいて、逆文書頻度を決定する。
例えば、候補語Aの場合、コーパスに含まれるサンプルの総数は、20万個であり、コーパスにおける各サンプルの原文に候補語Aが含まれるサンプルの個数は、1万個であり、サンプルの総数と、原文に候補語Aが含まれるサンプルの個数との比は、200000/10000である。これにより、候補語Aの逆文書頻度IDF=log(200000/10000)を決定することができる。
本出願の実施例では、各候補語について、各パラフレーズとの関連度を決定する。つまり、原文に多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を決定する。
可能な一実現形態として、一つの候補語について、コーパスを統計して、原文に多義語と当該候補語とが含まれ、且つ対応する翻訳文にパラフレーズTiが含まれるサンプルの個数yiを決定する。ここで、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、多義語のパラフレーズの総数である。同時に、原文に多義語が含まれ、且つ対応する翻訳文にパラフレーズTiが含まれるサンプルの個数Yiを決定する。そして、トレーニングサンプルの個数yiとトレーニングサンプルの個数Yiとの比に基づいて、当該候補語とパラフレーズTiとの関連度を決定する。
引き続き上記の例を例とし、候補語Aについて、コーパスを統計して、原文に多義語Bと候補語Aとが含まれ、且つ対応する翻訳文にパラフレーズCが含まれるサンプルの個数yiが150個であると決定する。原文に多義語Bが含まれ、且つ対応する翻訳文にパラフレーズCが含まれるサンプルの個数Yiが200個であると決定する。トレーニングサンプルの個数yiとトレーニングサンプルの個数Yiとの比を150/200と算出する。そして、候補語AとパラフレーズCとの関連度が150/200であると決定することができる。
なお、ターゲットサンプルから決定された複数の候補語について、いずれも上記の方法によって各候補語の逆文書頻度及び各候補語と各パラフレーズとの関連度を決定することができる。
ステップ204において、各パラフレーズについて、各候補語の逆文書頻度、及び各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定する。
本出願の実施例では、各候補語について、逆文書頻度、及び各パラフレーズとの関連度を決定した後、複数の候補語から、対応するパラフレーズに対応する関連語を決定することができる。
なお、各候補語の逆文書頻度、及び各候補語と各パラフレーズとの関連度に基づいて各候補語をスクリーニングして、候補語における、逆文書頻度、及び対応するパラフレーズとの関連度が最も高い候補語を対応するパラフレーズの関連語とすることができることを理解されたい。
本出願の実施例に係る多義語翻訳方法は、コーパスの各サンプルから、原文に多義語が含まれるターゲットサンプルを決定し、ターゲットサンプルの原文における多義語以外の単語に基づいて、複数の候補語を決定し、各候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定し、各パラフレーズについて、各候補語の逆文書頻度、及び各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定する。これにより、コーパスにおける多義語を含むターゲットサンプルから複数の候補語を決定し、複数の候補語から対応するパラフレーズに対応する関連語を決定し、文章全体に対して文内の多義語翻訳を行うことを実現し、多義語翻訳の精度を向上させることができる。
上記の実施例をもとに、各候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定する上記のステップ203の前に、各候補語に対して対応する各パラフレーズの単語ベクトルを決定し、各パラフレーズの単語ベクトル間の類似距離に基づいて、対応する候補語の各パラフレーズをマージすることができる。これにより、多義語のパラフレーズをマージすることによって、テキスト翻訳の速度を向上させることができる。以下、図3を参照して上記のプロセスを詳細に説明し、図3は、本出願の実施例に係る別の多義語の翻訳方法の概略フローチャートである。
図3に示すように、当該多義語の翻訳方法は、以下のステップ301とステップ302とをさらに含むことができる。
ステップ301において、各候補語について、各パラフレーズの単語ベクトルを決定する。
ここで、単語ベクトル(Word embedding)は、Word埋め込みとも呼ばれ、自然言語処理(NLP)内の1グループの言語モデリングと特徴学習技術の総称であり、語彙表からの単語又はフレーズは、実数のベクトルにマッピングされる。
なお、類似する単語について、それの対応する単語ベクトルも類似する。
本出願の実施例では、コーパスにおける原文には多義語が含まれるターゲットサンプルから複数の候補語が決定された後、各候補語は、多義語の一つ又は複数のパラフレーズに対応する。各候補語について、各パラフレーズの単語ベクトルを決定する。
可能な一実現形態として、言語モデルに基づく方法を用いて各パラフレーズの単語ベクトルを決定することができる。具体的には、各候補語の各パラフレーズをニューラルネットワーク言語モデル(Neural Network Language Model,NNLMと略称する)に入力してトレーニングし、単語ベクトルは言語モデルの付随として生成される。
ステップ302において、各パラフレーズの単語ベクトル間の類似距離に基づいて、対応する候補語の各パラフレーズをマージする。
ここで、各パラフレーズの単語ベクトル間の類似距離とは、各パラフレーズ間の類似度を指す。
例えば、射撃と銃の発砲とに対応する単語ベクトル間の類似距離は、射撃とレンズとの間の類似距離よりも大きい。
本出願の実施例では、各候補語について、各パラフレーズの単語ベクトルが決定された後、各パラフレーズの単語ベクトル間の類似距離を算出して、同じ意味の各パラフレーズをマージする。
可能な一実現形態として、各パラフレーズの単語ベクトルのユークリッド距離を計算する方法を使用して、各パラフレーズの単語ベクトル間の類似距離を決定することができる。例えば、以下の式を使用して各パラフレーズの単語ベクトル間の類似距離を算出する。
Figure 2021096838
ここで、dは、パラフレーズの単語ベクトル間の類似距離であり、X1iとX2iは、それぞれ2つのパラフレーズに対応する単語ベクトルである。
別の可能な実現形態として、各パラフレーズの単語ベクトル間の夾角のコサイン値を算出することによって各パラフレーズの単語ベクトル間の類似距離を評価することもできる。
本出願の実施例に係る多義語の翻訳方法は、各候補語について、各パラフレーズの単語ベクトルを決定し、各パラフレーズの単語ベクトル間の類似距離に基づいて、対応する候補語の各パラフレーズをマージする。これにより、多義語のパラフレーズをマージすることによって、テキスト翻訳の速度を向上させることができる。
上記の実施例を実現するために、本出願は、多義語の翻訳装置を提供する。
図4は、本出願の実施例に係る多義語の翻訳装置の概略構成図である。
図4に示すように、当該多義語の翻訳装置400は、取得モジュール410、認識モジュール420、クエリモジュール430、決定モジュール440、及び翻訳モジュール450を備えることができる。
取得モジュール410は、ソース言語テキストを取得するように構成される。
認識モジュール420は、ソース言語テキストから多義語を認識するように構成される。
クエリモジュール430は、多義語の各パラフレーズに対応する関連語をクエリするように構成される。
決定モジュール440は、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するように構成される。
翻訳モジュール450は、多義語をターゲットパラフレーズに翻訳するように構成される。
可能な場合として、当該多義語の翻訳装置400は、コーパスの各サンプルから、原文に多義語が含まれるターゲットサンプルを決定するように構成されるサンプル処理モジュールと、ターゲットサンプルの原文における前記多義語以外の単語に基づいて、複数の候補語を決定するように構成される選択モジュールはと、各候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するように構成される算出モジュールであって、各パラフレーズとの関連度とは、原文に多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を指す算出モジュールと、各パラフレーズについて、各候補語の逆文書頻度、及び各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定するように構成される関連モジュールとをさらに備えることができる。
別の可能な場合として、算出モジュールは、さらに、一つの候補語について、コーパスを統計して、原文に多義語と一つの候補語とが含まれ、且つ対応する翻訳文にパラフレーズTiが含まれるサンプルの個数yiを決定し、iは、多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、多義語のパラフレーズの総数であり、原文に多義語が含まれ、且つ対応する翻訳文にパラフレーズTiが含まれるサンプルの個数Yiを決定し、トレーニングサンプルの個数Yiとトレーニングサンプルの個数Yiとの比に基づいて、一つの候補語とパラフレーズTiとの関連度を決定するように構成されてもよい。
別の可能な場合として、算出モジュールは、さらに、一つの候補語について、コーパスを統計して、原文に一つの候補語が含まれるサンプルの個数と、コーパスに含まれるサンプルの総数とを決定し、サンプルの総数と原文に一つの候補語が含まれるサンプルの個数との比に基づいて、逆文書頻度を決定するように構成されてもよい。
別の可能な場合として、当該多義語の翻訳装置400は、各前記候補語について、各パラフレーズの単語ベクトルを決定するように構成される単語ベクトル決定モジュールと、各パラフレーズの単語ベクトル間の類似距離に基づいて、対応する候補語の各パラフレーズをマージするように構成されるマージモジュールと、をさらに備えることができる。
別の可能な場合として、認識モジュール420は、さらに、多義語データベースに基づいて、前記ソース言語テキストから、前記多義語を認識するように構成されてもよく、前記多義語データベースが、各単語の単語多義確率に基づいて決定され、前記多義語の前記単語多義確率が、設定された閾値よりも大きく、前記単語多義確率が、対応する単語eが各パラフレーズTiに翻訳される確率P(e|Ti)と、各パラフレーズTiが対応する単語eに翻訳される確率P(Ti|e)と、を含み、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、前記多義語のパラフレーズの総数である。
なお、多義語の翻訳方法の実施例についての上記説明は、当該多義語の翻訳装置にも適用されるため、ここでは説明を省略する。
本出願の実施例に係る多義語の翻訳装置は、ソース言語テキストを取得し、ソース言語テキストから多義語を認識し、多義語の各パラフレーズに対応する関連語をクエリし、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定し、多義語をターゲットパラフレーズに翻訳する。当該方法は、ソース言語テキストに含まれる多義語のパラフレーズに対応する関連語に基づいて、多義語を翻訳することにより、ソース言語テキストのコンテキストに基づいて多義語を翻訳することを実現し、多義語が正しく翻訳できることを確保し、誤パラフレーズが生じる状況を回避することができる。
上記の実施例を実現するために、本出願の実施例は、少なくとも一つのプロセッサと、前記少なくとも一つのプロセッサに通信可能に接続されるメモリと、を備えるコンピュータ機器であって、前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも一つのプロセッサによって実行されることにより、前記少なくとも一つのプロセッサが、上記の実施例に記載の多義語の翻訳方法を実行可能であるコンピュータ機器を提供する。
上記の実施例を実現するために、本出願の実施例は、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに上記の実施例に記載の多義語の翻訳方法を実行させるコンピュータ読み取り可能な記憶媒体を提供する。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
図5に示すように、本出願の実施例に係る多義語の翻訳方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本出願の実現を制限することを意図したものではない。
図5に示すように、当該電子機器は、一つ又は複数のプロセッサ501と、メモリ502と、高速インターフェースと低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力/出力装置(インターフェースに結合されたディスプレイデバイスなど)にGUIの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作(例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図5では、一つのプロセッサ501を例とする。
メモリ502は、本出願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、少なくとも一つのプロセッサによって実行される命令を記憶されることにより、前記少なくとも一つのプロセッサが本出願に係る多義語の翻訳方法を実行することができる。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願に係る多義語の翻訳方法を実行させるためのコンピュータ命令が記憶されている。
メモリ502は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る多義語の翻訳方法に対応するプログラム命令/モジュール(例えば、図4に示す取得モジュール410、認識モジュール420、クエリモジュール430、決定モジュール440、及び翻訳モジュール450)などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するように構成される。プロセッサ501は、メモリ502に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の方法の実施例に係る多義語の翻訳方法を実現する。
メモリ502は、ストレージプログラム領域とストレージデータ領域とを含むことができ、ここで、ストレージプログラム領域は、オペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも一つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ502は、プロセッサ501に対して遠隔に設置されたメモリを備えることができ、これらの遠隔メモリは、ネットワークを介して多義語の翻訳方法を実行電子機器に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。
多義語の翻訳方法を実行する電子機器は、入力装置503と出力装置504とをさらに備えることができる。プロセッサ501、メモリ502、入力装置503、及び出力装置504は、バス又は他の方式を介して接続することができ、図5では、バスを介して接続することを例とする。
入力装置503は、入力された数字又はキャラクタ情報を受信し、多義語の翻訳のための電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、ディスプレイデバイス、補助照明デバイス(例えば、LED)、及び触覚フィードバックデバイス(例えば、振動モータ)などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令、高レベルのプロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することを含む。本明細書に使用されるように、用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するように構成されてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント側とサーバとを備えることができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。
本出願の実施例の技術案によれば、ソース言語テキストを取得し、ソース言語テキストから、多義語を認識し、多義語の各パラフレーズに対応する関連語をクエリし、ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定し、多義語をターゲットパラフレーズに翻訳する。これにより、提高了多義語翻訳の正確度。当該方法は、ソース言語テキストに含まれる多義語のパラフレーズに対応する関連語に基づいて、多義語を翻訳し、ソース言語テキストのコンテキストに基づいて多義語を翻訳することを実現し、多義語が正しく翻訳できることを確保することによって、誤りパラフレーズが生じる状況を回避する。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきでえある。

Claims (11)

  1. ソース言語テキストを取得するステップと、
    前記ソース言語テキストから多義語を認識するステップと、
    前記多義語の各パラフレーズに対応する関連語をクエリするステップと、
    前記ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するステップと、
    前記多義語を前記ターゲットパラフレーズに翻訳するステップと、
    を含む多義語の翻訳方法。
  2. 前記多義語の各パラフレーズに対応する関連語をクエリするステップの前に、
    コーパスの各サンプルから、原文に前記多義語が含まれるターゲットサンプルを決定するステップと、
    前記ターゲットサンプルの原文における前記多義語以外の単語に基づいて、複数の候補語を決定するステップと、
    各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップであって、前記各パラフレーズとの関連度とは、原文に前記多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を指すステップと、
    各パラフレーズについて、各候補語の逆文書頻度、及び各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定するステップと、
    を含む請求項1に記載の多義語の翻訳方法。
  3. 前記各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップが、
    一つの候補語について、前記コーパスを統計して、原文に前記多義語と前記一つの候補語とが含まれ、且つ対応する翻訳文にパラフレーズ(Ti)が含まれるサンプルの個数(yi)を決定するステップであって、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、前記多義語のパラフレーズの総数であるステップと、
    原文に前記多義語が含まれ、且つ対応する翻訳文にパラフレーズ(Ti)が含まれるサンプルの個数(Yi)を決定するステップと、
    前記トレーニングサンプルの個数(yi)とトレーニングサンプルの個数(Yi)との比に基づいて、前記一つの候補語とパラフレーズ(Ti)との関連度を決定するステップと、
    を含む請求項2に記載の多義語の翻訳方法。
  4. 各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップが、
    一つの候補語について、前記コーパスを統計して、原文に前記一つの候補語が含まれるサンプルの個数と、前記コーパスに含まれるサンプルの総数とを決定するステップと、
    前記サンプルの総数と原文に前記一つの候補語が含まれるサンプルの個数との比に基づいて、前記逆文書頻度を決定するステップと、
    を含む請求項2に記載の多義語の翻訳方法。
  5. 各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するステップの前に、
    各前記候補語について、各パラフレーズの単語ベクトルを決定するステップと、
    各パラフレーズの単語ベクトル間の類似距離に基づいて、対応する候補語の各パラフレーズをマージするステップと、
    を含む請求項2に記載の多義語の翻訳方法。
  6. 前記ソース言語テキストから多義語を認識するステップが、
    多義語データベースに基づいて、前記ソース言語テキストから、前記多義語を認識するステップを含み、
    前記多義語データベースが、各単語の単語多義確率に基づいて決定され、前記多義語の前記単語多義確率が、設定された閾値よりも大きく、
    前記単語多義確率が、対応する単語(e)が各パラフレーズ(Ti)に翻訳される確率(P)(e|Ti)と、各パラフレーズ(Ti)が対応する単語(e)に翻訳される確率(P)(Ti|e)と、を含み、iは、前記多義語のパラフレーズの番号であり、1からnまでの値を有する自然数であり、nは、前記多義語のパラフレーズの総数である請求項1から5のいずれか一項に記載の多義語の翻訳方法。
  7. ソース言語テキストを取得するように構成される取得モジュールと、
    前記ソース言語テキストから多義語を認識するように構成される認識モジュールと、
    前記多義語の各パラフレーズに対応する関連語をクエリするように構成されるクエリモジュールと、
    前記ソース言語テキストに含まれる関連語に基づいて、対応するターゲットパラフレーズを決定するように構成される決定モジュールと、
    前記多義語を前記ターゲットパラフレーズに翻訳するように構成される翻訳モジュールと、
    を備える多義語の翻訳装置。
  8. コーパスの各サンプルから、原文に前記多義語が含まれるターゲットサンプルを決定するように構成されるサンプル処理モジュールと、
    前記ターゲットサンプルの原文における前記多義語以外の単語に基づいて、複数の候補語を決定するように構成される選択モジュールと、
    各前記候補語について、逆文書頻度を決定し、且つ各パラフレーズとの関連度を決定するように構成される算出モジュールであって、前記各パラフレーズとの関連度とは、原文に前記多義語及び対応する候補語が含まれ、且つ対応する翻訳文には対応するパラフレーズが含まれる確率を指す算出モジュールと、
    各パラフレーズについて、各候補語の逆文書頻度、各候補語と対応するパラフレーズとの関連度に基づいて、各候補語から対応するパラフレーズに対応する関連語を決定するように構成される関連モジュールと、
    を含む請求項7に記載の多義語の翻訳装置。
  9. 少なくとも一つのプロセッサと、該少なくとも一つのプロセッサに通信可能に接続されるメモリと、を備える電子機器であって、
    前記メモリには、前記少なくとも一つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも一つのプロセッサによって実行される場合、前記少なくとも一つのプロセッサが、請求項1から6のいずれか一項に記載の多義語の翻訳方法を実行可能である電子機器。
  10. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令が、コンピュータに請求項1から6のいずれか一項に記載の多義語の翻訳方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
  11. コンピュータに請求項1から6のいずれか一項に記載の多義語の翻訳方法を実行させるコンピュータプログラム。
JP2020190963A 2019-12-18 2020-11-17 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体 Active JP7196145B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911309770.3A CN110991196B (zh) 2019-12-18 2019-12-18 多义词的翻译方法、装置、电子设备及介质
CN201911309770.3 2019-12-18

Publications (2)

Publication Number Publication Date
JP2021096838A true JP2021096838A (ja) 2021-06-24
JP7196145B2 JP7196145B2 (ja) 2022-12-26

Family

ID=70095331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020190963A Active JP7196145B2 (ja) 2019-12-18 2020-11-17 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体

Country Status (3)

Country Link
US (1) US11275904B2 (ja)
JP (1) JP7196145B2 (ja)
CN (1) CN110991196B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991196B (zh) * 2019-12-18 2021-10-26 北京百度网讯科技有限公司 多义词的翻译方法、装置、电子设备及介质
CN111652005B (zh) * 2020-05-27 2023-04-25 沙塔尔江·吾甫尔 汉语与乌尔都语同步互译系统及方法
CN111859996B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 机器翻译模型的训练方法、装置、电子设备及存储介质
CN111859998A (zh) * 2020-06-18 2020-10-30 北京百度网讯科技有限公司 篇章翻译的方法、装置、电子设备和可读存储介质
CN111738022B (zh) * 2020-06-23 2023-04-18 中国船舶工业综合技术经济研究院 一种国防军工领域机器翻译优化方法及系统
KR20220056004A (ko) * 2020-10-27 2022-05-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11972759B2 (en) * 2020-12-02 2024-04-30 International Business Machines Corporation Audio mistranscription mitigation
CN113191163B (zh) * 2021-05-21 2023-06-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质
CN113723116B (zh) * 2021-08-25 2024-02-13 中国科学技术大学 文本翻译方法及相关装置、电子设备、存储介质
CN117313754B (zh) * 2023-11-24 2024-01-30 深圳市贝铂智能科技有限公司 智能翻译方法、装置以及翻译机

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6470875A (en) * 1987-09-11 1989-03-16 Hitachi Ltd Translation processor having dictionary data converging function
JPH05242138A (ja) * 1991-12-30 1993-09-21 American Teleph & Telegr Co <Att> 単語ディスアンビギュエーション装置及び方法
JP2019012468A (ja) * 2017-06-30 2019-01-24 富士通株式会社 語義特定プログラム、情報生成プログラム、語義特定方法、情報生成方法、語義特定装置および情報生成装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
US5416696A (en) * 1989-12-27 1995-05-16 Kabushiki Kaisha Toshiba Method and apparatus for translating words in an artificial neural network
JP2814634B2 (ja) * 1989-12-29 1998-10-27 松下電器産業株式会社 機械翻訳装置
US5659764A (en) * 1993-02-25 1997-08-19 Hitachi, Ltd. Sign language generation apparatus and sign language translation apparatus
JP2821840B2 (ja) * 1993-04-28 1998-11-05 日本アイ・ビー・エム株式会社 機械翻訳装置
EP0856175A4 (en) * 1995-08-16 2000-05-24 Univ Syracuse SYSTEM AND METHOD FOR RETURNING MULTI-LANGUAGE DOCUMENTS USING A SEMANTIC VECTOR COMPARISON
US6233545B1 (en) * 1997-05-01 2001-05-15 William E. Datig Universal machine translator of arbitrary languages utilizing epistemic moments
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US20080300856A1 (en) * 2001-09-21 2008-12-04 Talkflow Systems, Llc System and method for structuring information
US7739102B2 (en) * 2003-10-08 2010-06-15 Bender Howard J Relationship analysis system and method for semantic disambiguation of natural language
US7620539B2 (en) * 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
US7822768B2 (en) * 2004-11-23 2010-10-26 International Business Machines Corporation System and method for automating data normalization using text analytics
US20070073678A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Semantic document profiling
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US20070073745A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
CN101408873A (zh) * 2007-10-09 2009-04-15 劳英杰 全范围语义信息综合认知系统及其应用
KR100956794B1 (ko) * 2008-08-28 2010-05-11 한국전자통신연구원 다단계 용언구 패턴을 적용한 번역장치와 이를 위한적용방법 및 추출방법
US20120059713A1 (en) * 2010-08-27 2012-03-08 Adchemy, Inc. Matching Advertisers and Users Based on Their Respective Intents
TWI528193B (zh) * 2010-11-12 2016-04-01 語意結合系統公司 可用以產生字、詞及句子之合成複數個字訊息之依序多意義觸感符號
RU2487403C1 (ru) * 2011-11-30 2013-07-10 Федеральное государственное бюджетное учреждение науки Институт системного программирования Российской академии наук Способ построения семантической модели документа
JP2017511914A (ja) * 2014-01-28 2017-04-27 ゾモル・ツォルツィン・ゲーエムベーハーSomol Zorzin GmbH テキストの意味を自動検出して一義性を自動測定する方法
CN104572633A (zh) * 2014-12-25 2015-04-29 语联网(武汉)信息技术有限公司 一种确定多义词词义的方法
CN105718443A (zh) * 2016-01-26 2016-06-29 齐鲁工业大学 一种基于依存词汇关联度的形容词词义消歧方法
JP6706810B2 (ja) * 2016-12-13 2020-06-10 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
CN109726385A (zh) * 2017-10-31 2019-05-07 株式会社Ntt都科摩 词义消歧方法和设备、词义扩展方法和装置
CN108920467B (zh) * 2018-08-01 2021-04-27 北京三快在线科技有限公司 多义词词义学习方法及装置、搜索结果显示方法
CN110991196B (zh) * 2019-12-18 2021-10-26 北京百度网讯科技有限公司 多义词的翻译方法、装置、电子设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6470875A (en) * 1987-09-11 1989-03-16 Hitachi Ltd Translation processor having dictionary data converging function
JPH05242138A (ja) * 1991-12-30 1993-09-21 American Teleph & Telegr Co <Att> 単語ディスアンビギュエーション装置及び方法
JP2019012468A (ja) * 2017-06-30 2019-01-24 富士通株式会社 語義特定プログラム、情報生成プログラム、語義特定方法、情報生成方法、語義特定装置および情報生成装置

Also Published As

Publication number Publication date
US11275904B2 (en) 2022-03-15
CN110991196A (zh) 2020-04-10
JP7196145B2 (ja) 2022-12-26
CN110991196B (zh) 2021-10-26
US20210192147A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
JP7196145B2 (ja) 多義語の翻訳方法、多義語の翻訳装置、電子機器及び媒体
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
KR102557681B1 (ko) 시계열 지식그래프 생성 방법, 장치, 기기 및 매체
EP3923160A1 (en) Method, apparatus, device and storage medium for training model
US11461556B2 (en) Method and apparatus for processing questions and answers, electronic device and storage medium
EP3848819A1 (en) Method and apparatus for retrieving video, device and medium
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
CN110427627B (zh) 基于语义表示模型的任务处理方法和装置
US20210390260A1 (en) Method, apparatus, device and storage medium for matching semantics
EP3933657A1 (en) Conference minutes generation method and apparatus, electronic device, and computer-readable storage medium
JP2021184237A (ja) データセット処理方法、装置、電子機器及び記憶媒体
CN111401033B (zh) 事件抽取方法、事件抽取装置和电子设备
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
US11907671B2 (en) Role labeling method, electronic device and storage medium
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
CN112528001B (zh) 一种信息查询方法、装置及电子设备
JP2021111420A (ja) テキストエンティティの語義記述処理方法、装置及び機器
US20220129448A1 (en) Intelligent dialogue method and apparatus, and storage medium
CN111831814B (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN112380855B (zh) 确定语句通顺度的方法、确定概率预测模型的方法和装置
CN112528681A (zh) 跨语言检索及模型训练方法、装置、设备和存储介质
CN111708800A (zh) 查询方法、装置及电子设备
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium
CN111753542B (zh) 文本语句的处理方法和装置、电子设备及存储介质
CN113221550B (zh) 文本过滤方法、装置、设备和介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220119

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221005

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221024

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20221025

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20221101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221214

R150 Certificate of patent or registration of utility model

Ref document number: 7196145

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150