JP7164651B2

JP7164651B2 - 翻訳方法、装置、電子機器及びコンピュータプログラム製品

Info

Publication number: JP7164651B2
Application number: JP2021042333A
Authority: JP
Inventors: 紹▲ティン▼ 易; 永佳餘
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2020-09-07
Filing date: 2021-03-16
Publication date: 2022-11-01
Anticipated expiration: 2041-03-16
Also published as: EP3825898A3; KR102569517B1; CN112085090A; JP2021106008A; US20210209428A1; EP3825898A2; KR20210037637A

Description

本願は、画像処理の技術分野におけるコンピュータビジョン技術に関し、特に翻訳方法、装置、電子機器及びコンピュータプログラム製品に関する。

従来の翻訳は、テキスト翻訳、音声翻訳又は画像翻訳を含む。テキスト翻訳では、ユーザが翻訳を必要とする文字コンテンツを手動で入力する必要があり、テキスト内容が長いと入力コストが高くなる、また、音声翻訳では、ユーザが翻訳を必要とするテキストコンテンツを読み上げて入力する必要があり、ユーザが不慣れな外国語コンテンツでは、音声入力を用いることができない。さらに、画像翻訳では、テキストコンテンツを撮影して、撮影して取得されたコンテンツを画像理解技術に基づいて翻訳する必要がある。

本開示は、翻訳方法、装置、電子機器及び記憶媒体を提供する。

本開示の第１の態様に係る翻訳方法は、翻訳されるテキストを含む画像を取得することと、前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得することと、前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得することと、前記翻訳対象を翻訳することと、を含む。

本開示の第２の態様に係る翻訳装置は、翻訳されるテキストを含む画像を取得する取得モジュールと、前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得する分割モジュールと、前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得する受信モジュールと、前記翻訳対象を翻訳する翻訳モジュールと、を含む。

本開示の第３の態様に係る電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能で、前記少なくとも１つのプロセッサによって実行されると、第１の態様のいずれか１項に記載の方法を前記少なくとも１つのプロセッサに実行させる命令が記憶されている。

本願の第４の態様に係る非一時的なコンピュータ可読記憶媒体には、第１の態様のいずれか１項に記載の方法をコンピュータに実行させるコンピュータ命令が記憶されている。

本願の技術は、ユーザが翻訳対象のコンテンツを手動で入力する場合に効率が低くなるという問題を解決する。本願は、翻訳されるテキストを含む画像を取得し、前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得し、前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得し、前記翻訳対象を翻訳することにより、テキストへの翻訳を実現できる。上記方法では、翻訳されるテキストを含む画像のみを取得すればよく、ユーザが手動で翻訳されるテキストを入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。

本部分で説明された内容は、本開示の実施例の主要又は重要な特徴を特定することを意図するものではなく、本開示の範囲を限定するものでもないことを理解されたい。本開示の他の特徴は、以下の明細書により容易に理解される。

図面は、本解決手段をより良く理解するためのものであり、本願を限定するものではない。

本願の実施例に係る翻訳方法のフローチャートである。本願の実施例に係るテキスト分割結果の概略図である。本願の実施例に係るテキスト分割結果の概略図である。本願の実施例に係る翻訳対象選択インタフェースの概略図である。本願の実施例に係る翻訳対象の選択結果の概略図である。本願の実施例に係る翻訳対象の選択結果の概略図である。本願の実施例に係る翻訳装置の構成図である。本願の実施例に係る翻訳方法を実現する電子機器のブロック図である。

以下、理解を容易にするために、図面を参照しながら、本願の実施例の様々な詳細を含めて本願の例示的な実施例を説明するが、これらは単なる例示と見なすべきである。したがって、当業者であれば、本願の範囲及び趣旨を逸脱することなく、ここに説明する実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、明確かつ簡潔のため、以下の説明では、公知の機能及び構造に対する説明は省略される。

図１を参照すると、図１は、本願の実施例に係る翻訳方法のフローチャートである。図１に示すように、本実施例に係る、電子機器に適用される翻訳方法は、以下のステップ１０１～ステップ１０４を含む。

ステップ１０１では、翻訳されるテキストを含む画像を取得する。

画像は、翻訳されるテキストを含み、撮像又はスキャンによって取得できるが、ここでは限定されない。

ステップ１０２では、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得する。

画像認識技術を用いてテキストを認識し、認識されたテキストに対して単語分割を行い、個々の文字及び／又は単語を取得する。即ち、テキストの文字又は単語を含む複数のターゲット対象を取得する。

ステップ１０３では、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得する。

複数のターゲット対象に対して入力操作を行う。例えば、複数のターゲット対象の一部又は全ての対象を選択して、翻訳対象を決定する。翻訳対象は、入力操作に基づいて決定された複数のターゲット対象の一部又は全てである。

ステップ１０４では、上記翻訳対象を翻訳する。

翻訳対象を取得した後、翻訳ソフトウェアを用いて翻訳対象を翻訳する。例えば、インターネットに基づくニューラルネットワーク翻訳システムを用いて翻訳し、翻訳結果を電子機器の表示画面に表示する。

電子機器は、携帯電話、タブレットコンピュータ、ラップトップコンピュータ、パーソナルデジタルアシスタント、モバイルインターネット装置又はウェアラブル機器等であってよい。

本実施例では、翻訳されるテキストを含む画像を取得し、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得し、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得し、上記翻訳対象を翻訳することにより、テキストへの翻訳を実現できる。上記方法では、翻訳されるテキストを含む画像のみを取得すればよく、ユーザが翻訳されるテキストを手動で入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。また、上記方法は、ユーザが翻訳されるテキストを知らない場合にも適用できるので、ユーザが新たな知識を自律的に学習し、新たな物事を理解するのに役立つ。

本願の一実施例では、上記入力操作は、上記複数のターゲット対象のうちの１つのターゲット対象又は位置が連続しない複数のターゲット対象に対する第１の入力であり、或いは上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象に対する第２の入力である。

第１の入力は、クリック入力であってよい。例えば、テキスト内の複数のターゲット対象をクリック入力し、複数のターゲット対象のうちの１つのターゲット対象を選択するか又は複数のターゲット対象のうちの位置が連続しない複数のターゲット対象を選択する。ターゲット対象の位置は、ターゲット対象のテキストでの位置である。位置が連続しないことは、選択された複数のターゲット対象のテキストでの位置が隣接しないことを意味する。例えば、選択された複数のターゲット対象が同一行に位置する場合、隣接しない２つのターゲット対象が存在し、或いは、選択された複数のターゲット対象が異なる行に位置する場合、隣接する行に位置しない２つのターゲット対象が存在する。即ち、第１の入力によって、１つのターゲット対象又は位置が連続しない複数のターゲット対象を選択でき、テキストでは、選択された複数のターゲット対象の間に選択されていないターゲット対象が存在する。例えば、テキスト内のＡＢＣＤＥがそれぞれ一文の５つの文字及び／又は単語を表し、各文字又は単語が１つのターゲット対象であれば、第１の入力によってＡＢＣＤＥのうちの１つ以上のターゲット対象を選択でき、選択された複数のターゲット対象の位置が連続せず、例えば、ＡＣＤ、ＢＤＥ又はＡＢＤＥ等を選択することができる。

上述したように、第１の入力を行うとき、第１の入力は、複数のクリック入力を含んでよく、１つのクリック入力を完了した後に、所定の時間内に次のクリック入力を検出しなければ、ユーザが第１の入力を完了したとみなして、選択されたターゲット対象を翻訳する。所定の時間は、０．５秒又は１秒等であってもよく、具体的には実際の状況に応じて設定でき、ここでは限定されない。

また、複数のターゲット対象のうちの位置が連続する複数のターゲット対象を選択してもよく、クリック入力によって選択してもよい。例えば、位置が連続する複数のターゲット対象をクリックによって選択してもよいし、スライド入力によって選択してもよい。

例えば、開始位置のターゲット対象を長押しし、該ターゲット対象の位置を開始位置としてスライドすることにより、スライド軌跡が通過する位置でのターゲット対象を選択し、又は、スライド軌跡の開始位置と終了位置とで構成された矩形領域を決定する。例えば、開始位置がＡ１（ｘ１，ｙ１）であり、終了位置がＢ１（ｘ２，ｙ２）であれば、矩形領域の４つの頂点がそれぞれ（ｘ１，ｙ１）、（ｘ２，ｙ１）、（ｘ１，ｙ２）、（ｘ２，ｙ２）であり、矩形領域に位置するターゲット対象を選択する。上述したように、スライド入力によって、テキスト内の位置が連続する複数のターゲット対象を迅速に選択するので、ユーザの選択操作を簡略化し、選択効率を向上させることができる。

本実施例では、上記入力操作は、上記複数のターゲット対象のうちの１つのターゲット対象又は位置が連続しない複数のターゲット対象に対する第１の入力であり、或いは上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象に対する第２の入力である。入力操作が第１の入力である場合、翻訳対象は、上記複数のターゲット対象のうちの１つのターゲット対象又は位置が連続しない複数のターゲット対象を含み、入力操作が第２の入力である場合、翻訳対象は、上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象を含む。ユーザは、実際のニーズに応じてテキスト内の複数のターゲット対象の一部又は全てを選択でき、ユーザの入力操作を簡略化し、入力効率を向上させる。同時に、入力操作によってテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を選択できることにより、後続の翻訳ステップではテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を翻訳できるため、テキスト内のコンテンツへの選択的な翻訳の柔軟性を向上させることができる。

本願の一実施例では、上記画像内の上記テキストを分割して、ターゲット対象を複数取得することは、上記画像に対してコンテンツ認識を行って、第１の認識結果を取得することと、上記第１の認識結果における文字を分割して、複数のターゲット対象を取得することと、上記画像内の、クリックボックスをさらに含む上記ターゲット対象の位置にクリックボックスを表示することと、を含み、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得することは、上記複数のターゲット対象のクリックボックスに対する入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得することを含む。

本実施例では、翻訳されるテキストを含む画像を取得した後に、画像に対してコンテンツ認識を行って、認識された文字領域であると理解できる第１の認識結果を取得する。具体的には、画像前処理の方式によって画像内のテキスト情報を強化し、元の画像の歪み、ぼけ、不鮮明な光、複雑な背景等の問題を解決する。次に、文字を分割し、具体的には、上記第１の認識結果における文字を分割して、上記複数のターゲット対象を取得することは、上記第１の認識結果における文字を行ごとに分割して、少なくとも１行の文字情報を取得することと、上記少なくとも１行の文字情報内の各行の文字情報をそれぞれ文字間隔に応じて分割して、上記複数のターゲット対象を取得することと、を含む。

文字検出技術によって画像内のテキスト領域の位置を特定し、水平方向に分割する。即ち、テキスト領域を１行ずつの文字領域、即ち少なくとも１行の文字情報に分割する。

次に、少なくとも１行の文字情報の各行の文字情報をそれぞれ分割する。分割する際には、隣接する文字間の文字間隔に応じて分割してもよい。例えば、文字間隔で区切られた２つの文字は、２つの独立した文字であり、又は分割する際に、文字認識機能を起動して、文字間隔で区切られた連続する複数の文字がフレーズを構成するか否かを判断してもよい。フレーズの場合には、該連続する複数の文字を分割しないで、これらを全体として、各行の文字情報を上記方式によって分割し、複数の文字及び／又は単語に分割してもよい。各文字又は単語は、１つのターゲット対象である。分割の粒度を文字又は単語に低減することにより、ユーザが文字又は単語を容易に選択して、ユーザの多様な翻訳ニーズを満たすことができる。

画像におけるターゲット対象の位置に応じて、ターゲット対象の位置にクリックボックスを表示する。各ターゲット対象は、１つのクリックボックスを含む。クリックボックスは、ユーザにより選択され、ユーザがクリックボックスを選択すると、クリックボックスに対応する文字又は単語が選択される。

分割する際に、文字自体の特性に応じて分割することができる。例えば、文字内の各文字又は単語の間にスペースがあり、英語のように各単語をスペースで区切れる場合には、各行の文字を垂直方向に分割して、単語が存在する領域の最小外接矩形であってよい各単語の位置を取得して、各単語の位置にクリックボックスを表示することができる。

画像内のテキストの各ターゲット対象の位置にクリックボックスが表示されるので、ユーザは、クリックボックスを選択することができる。例えば、クリック操作により、１つのクリックボックス又は位置が連続する複数のクリックボックス又は位置が連続しない複数のクリックボックスを選択する。選択されたクリックボックスに対応する文字又は単語は翻訳対象である。位置が連続する複数のクリックボックスが選択されると、翻訳対象において、テキストでの位置が連続する複数のクリックボックスの位置関係によって、翻訳対象における対応する文字又は単語の位置関係を決定する。例えば、テキスト内に位置が順次連続するクリックボックス１、クリックボックス２及びクリックボックス３が存在し、それぞれ対応する単語が「Ｉ」、「ｌｉｋｅ」、「ｉｔ」である場合、翻訳対象において「Ｉ」、「ｌｉｋｅ」、「ｉｔ」の間の位置関係は、クリックボックスの位置関係によって決定される。即ち、翻訳対象における単語の順序は「Ｉ」、「ｌｉｋｅ」、「ｉｔ」である。

翻訳対象を取得した後に、翻訳対象を翻訳する。具体的には、従来の翻訳システムを用いて翻訳できるが、ここでは限定されない。

本実施例では、上記画像に対してコンテンツ認識を行い、第１の認識結果を取得し、上記第１の認識結果における文字を分割して、複数のターゲット対象を取得し、上記画像内の上記ターゲット対象の位置にクリックボックスを表示し、上記複数のターゲット対象に対するクリックボックスの入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得する。ユーザにターゲット対象を選択したクリックボックスを提供し、ユーザは、クリックボックスを選択することによってターゲット対象を選択する。電子機器は、ユーザが選択したターゲット対象に基づいて翻訳するので、ユーザによる入力を簡略化して、入力効率を向上させることにより、翻訳効率を向上させることができる。

本願の一実施例において、上記画像内の上記ターゲット対象の位置にクリックボックスを表示することは、上記画像内の上記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示することと、上記マスクレイヤーにクリックボックスを表示することと、を含む。

さらに、表示効果を向上させるために、ターゲット対象の位置を決定した後、画像内のターゲット対象の位置に、ターゲット対象の上層を被覆する、一定の透明効果を有するマスクレイヤーとして理解される所定の透明度のマスクレイヤーを表示する。所定の透明度のマスクレイヤーによって、ユーザは、依然としてマスクレイヤーを介してマスクレイヤーの下層のターゲット対象を判別でき、所定の透明度は、実際の状況に応じて設定できるが、ここでは限定されない。１つのターゲット対象の上層に１つのマスクレイヤーが表示され、ターゲット対象のクリックボックスがマスクレイヤーに表示され、クリックボックスに含まれる領域の面積は、対応するマスクレイヤーの被覆面積よりわずかに小さくてもよい。ユーザがクリックボックスを選択すると、選択されたときに、対応する紫色又は青色等の色をクリックボックスに含まれる領域に表示して、該ターゲット対象のクリックボックスが選択されたことをユーザに提示する。

本実施例では、より高い表示効果を達成するため、画像内のターゲット対象の位置に所定の透明度のマスクレイヤーを表示して、マスクレイヤーにクリックボックスを表示する。これにより、ユーザは、クリックボックスを選択することで翻訳を必要とするターゲット対象を選択することができる。ユーザは、翻訳する文字又は単語を手動で入力する必要がなくなるので、ユーザによる入力を簡略化し、入力効率を向上させ、最終的に翻訳効率を向上させることができる。

本願の一実施例では、上記翻訳対象を翻訳することは、上記翻訳対象を翻訳して、翻訳結果を取得することと、上記テキストにおける上記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出することと、ユーザの履歴照会データに基づいて、上記複数のナレッジポイント情報の優先度を決定することと、上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるＮ個のナレッジポイント情報を取得することと、上記翻訳結果及び上記Ｎ個のナレッジポイント情報を表示することと、を含む。

本実施例では、翻訳対象を翻訳して、翻訳結果を取得するだけでなく、テキストでの翻訳対象の文脈に合わせて、既存のデータベースから、関連する故実、ターゲット対象に関連する固定フレーズの組み合わせ、ターゲット対象の類義語又は反義語、常用フレーズ、時制等のターゲット対象に関連する情報である複数のナレッジポイント情報を抽出して、ユーザが学習又は理解するための追加のナレッジポイントをユーザに提供する。

ナレッジポイント情報を取得した後に、ユーザの履歴照会データに基づいて、ナレッジポイント情報の優先度を決定する。例えば、あるナレッジポイント情報に対して、ユーザの履歴照会回数が多ければ、該ナレッジポイント情報の優先度が高く、或いは、話し言葉に多く使用された知識点情報は、優先度が高い。

上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるＮ個のナレッジポイント情報を取得する。例えば、表示する際に、優先度に応じて大きい順に順序付けてＮ個のナレッジポイント情報を順次表示する。このように、優先度の高いナレッジポイント情報がより前方の位置に表示されるので、ユーザは、必要な情報を、高い確率で、できるだけ早く取得し、ユーザによる情報検索のコストを低減することができる。

本願の一実施例では、上記画像内の上記テキストを分割して、複数のターゲット対象を取得することは、認識モデルを用いて上記画像を認識して、第２の認識結果を取得することと、上記第２の認識結果に基づいて上記画像が学習シーンでの画像であると決定すれば、上記画像内の上記テキストを分割して、上記複数のターゲット対象を取得することと、を含む。

本実施例では、まず、画像を認識し、学習シーンの画像であるか否かを判断する。学習シーンの画像であれば、画像内のテキストを分割して、複数のターゲット対象を取得する。

汎用の翻訳シーンでは、使用するシーンが多く複雑であり、商品に対する翻訳、教科書の練習問題に対する翻訳、電子スクリーンに対する翻訳、エラーページに対する翻訳等を含んでいる。異なるシーンでは、ユーザの要求が大きく異なり、学習タイプのシーンでは、ユーザの構造文法等の知識に対する要求が高くなる一方、他の汎用タイプのシーンでは、ユーザの単語、フレーズ、文に対する要求が高くなく、テキストを分割する必要がないため、本実施例では、まず、文字シーン分類モデルで学習タイプの翻訳シーンを選別する。即ち、画像に対してシーン認識を行う際に、認識モデル（即ち、文字シーン分類モデル）を用いて認識することができる。認識モデルの取得過程は、以下を含む。

まず、印刷テキストタイプの練習問題を含む画像又は文章と絵がカラーである教科書を含む画像を含む学習シーンと非学習シーンでの画像を取得し、各画像を人工的にマーキングして、トレーニングセットを構成する。

次に、上記トレーニングセットを使用して分類器をトレーニングして、各タイプの画像の特徴を学習する。

最後に、分類器のトレーニングが完了すると、分類器は、入力画像の分類を予測し、該分類器の効果を検証するために、識別器の予測結果と該入力画像の実際のラベルとをさらに比較して、分類器のパラメータを調整し、分類器のパラメータを最適化し、分類器の予測精度を向上させる。認識モデルは、トレーニングが完了した分類器として理解することができる。

分類器に基づいて、画像を認識して、画像が学習シーンでの画像であるか否かを決定する。

本実施例では、画像内のテキストを分割する前に、まず、画像の学習シーンを判断し、画像が学習シーンである場合には、画像内のテキストを分割する。これにより、シーンのニーズにより応じて分割するので、不要な分割を低減することができる。

以下では、英語翻訳を例として、上記翻訳方法を例示的に説明する。

ステップ１では、翻訳シーンの認識を学習する。

汎用の翻訳シーンでは、ユーザの使用シーンが多く複雑であり、例えば、商品に対する翻訳、教科書の練習問題に対する翻訳、電子スクリーンに対する翻訳、エラーページに対する翻訳等を含む。異なるシーンでは、ユーザの要求が大きく異なり、学習タイプ（英語のテキスト／練習問題）のシーンでは、ユーザの構造及び英文法等の知識に対する要求が高く、他の汎用タイプのシーンでは、ユーザの単語、フレーズ、文に対する要求が高くない。このため、文字シーン分類モデルで学習タイプの翻訳シーンを選別することができる。

次に、上記トレーニングセットを使用して分類器をトレーニングし、各タイプの画像の特徴を学習する。

最後に、分類器のトレーニングが完了すると、分類器は、入力画像の分類を予測する。そして、該分類器の効果を検証するために、識別器の予測結果と該入力画像の実際のラベルとをさらに比較して、分類器のパラメータを調整し、分類器のパラメータを最適化し、分類器の予測精度を向上させる。認識モデルは、トレーニングが完了した分類器として理解される。

分類器に基づいて、画像を認識し、画像が学習シーンでの画像であるか否かを決定することができる。

ステップ２では、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字認識）による単語分割及び認識を行う。

英語学習シーンでは、英単語は粒度が最も小さい有効セマンティックセグメントである。ユーザの複数の粒度の翻訳に対する要求を満たすため、ＯＣＲ文字検出及び分割技術に基づいて、画像内のテキストコンテンツを認識して分割する。

深層学習技術に基づいて、まず、画像前処理の方式によって画像内のテキスト情報を強化し、元の画像に存在する歪み、ぼけ、不鮮明な光、複雑な背景等の問題を解決する。次に、文字検出技術によって画像内のテキスト領域の位置を特定し、水平方向に分割して、１行ずつ文字領域を取得する。図２ａに示すように、図において文字の外側に描かれたボックスは、水平方向に分割した後に取得されたテキスト領域である。文字検出が完了すると、英単語間がスペースで区切られるという特徴に基づいて、図２ｂに示すように、英単語を垂直方向に分割して、対応する単語が存在する領域の位置座標を取得する。図２ｂにおいて文字の外側に描かれたボックスは、垂直方向に分割した後に取得された単語の位置領域である。図２ｃに示すように、分割後の単語にマスク層（即ち、マスクレイヤー）及びクリックボックスを表示する。図２ｃにおけるマスク層の透明度は０．５であり、図において単語の外側に位置するボックスは、クリックボックスである。クリックボックスによって、ユーザが選択操作を行うことで、翻訳したいテキストコンテンツを容易に選択することができる。

最後に、文字認識を行い、画像内の具体的なテキストコンテンツを認識するとともに、テキスト及びレイアウト情報を取得し、具体的なテキストコンテンツを取得する。これにより、後続のユーザは、対応するクリックボックスをクリックすると、対応するテキストコンテンツを取得することができる。

ステップ３では、翻訳を必要とするコンテンツをクリックする。

クリックによって単一の単語の検索のみをサポートするという従来の対話操作と比較し、本機能は、連続しない複数を選択するというクリック方式によって、翻訳したい単語、フレーズ、文、段落又は文章の選択をサポートする。具体的な実施形態として、ステップ２では、単語の粒度に応じて単語を分割するため、実際のクリック過程において、単一のクリックボックスは１つの単語に対応し、ユーザのクリック操作を検出すると、複数のクリックボックスに対応する単語をスペースで区切ることにより、新たなフレーズ、文又は段落を構成する。

ユーザがクリック操作を完了した後に、１ｓ以内にユーザのクリック操作を検出しない場合には、ユーザがコンテンツの選択を完了したと見なして、次のステップの翻訳に自動的に進み、対応する構造化学習情報を取得する。

コンテンツを選択する過程において、選択用ジェスチャは、先頭の単語を長押しし、速くフリックして連続するテキストコンテンツを選択するショートカットジェスチャをサポートする。これにより、長いテキストの翻訳を要求する際の、ユーザが連続してクリックする操作コストを低減する。図２ｄに示すように、選択された単語は、テキスト内で連続せず、選択された単語で表示する色は、選択されていない単語で表示する色と異なっていてもよい。又は、選択された単語の位置でのマスクレイヤーの透明度は、選択されていない単語の位置でのマスクレイヤーの透明度と異なることにより、選択された単語をユーザに提示する。図２ｄにおいて、選択された単語の位置でのマスクレイヤーは、「ｈａｉｒ」と「ｌｏｎｇ」でのマスクレイヤーのように、完全に透明であり、図２ｅに示すように、選択された単語はテキスト内で連続しする。例えば、選択された「Ｍｙ」、「ｈａｉｒ」、「ｗａｓ」、「ｌｏｎｇ」、「ｔｈｅｎ」は、テキスト内の同じ文での単語である。

ステップ４では、文字を翻訳する。

文字認識結果を取得した後に、インターネットニューラルネットワーク翻訳システムに基づいて、外国語コンテンツから中国語への翻訳を実現する。ユーザが外国語コンテンツの具体的な中国語解釈を取得するので、外国語をより良く把握するのに役立つ。

ステップ５では、構造化英語の学習情報を表示する。

学習シーンでの要求については、高校及び大学の入学試験の大綱の要件に基づいて、基本的な翻訳結果に加えて、試験の要点に基づいてユーザに重要な語彙、フレーズ及び文法パターンを提供し、また、これまでの高校及び大学の入学試験での対応するコンテンツの出現頻度を提供するので、学生たちが試験の要点をより速く明確に理解し、構造化英語の学習情報を取得するのに役立つ。

構造化学習情報を表示する過程は、主に、ユーザが撮影した画像からナレッジポイントコンテンツを抽出するステップ１と、抽出されたナレッジポイントに基づいて、データベースから対応する学習データを引き出すステップ２と、ナレッジポイントコンテンツをグレーディングし、フロントエンドに表示するステップ３と、を含む。

ナレッジポイント抽出では、インテリジェントな意味解析技術によって、文字内の試験の要点を分析して認識する。

学習データの引き出しにおいては、試験の大綱に対する研究に基づいて、高校及び大学の入学試験の要点及び対応する情報を人工的に充実させている。例えば、単語に対して、対応する時制、常用フレーズ、固定された組み合わせ、使用する文法等の情報を充実させて、試験の要点をカバーしている。

情報表示において、対応するデータを引き出すと、該テキストに対するユーザの集団の履歴要求分布に基づいて、結果ページのコンテンツの優先度を動的に調整する。即ち、ｃｏｍｅという単語を例とすると、履歴検索行為では、ユーザは、主にこの単語の固定された組み合わせフレーズ情報を照会するので、翻訳結果の表示順序では、この単語の固定された組み合わせフレーズ情報は、上位に順序付けられる。このため、ユーザによる情報照会コストを低減することができる。

本願に係る翻訳方法は、以下の有益な効果を有する。入力効率が高く、１つの単語を１秒で認識でき、フレーズ、文、段落の検索速度がテキスト入力の５倍であるので、学習効率を大幅に向上させ、入力閾値がなく、写真を撮影するだけで単語の自動的な分割を実現することができる。また、クリックした後にコンテンツを自動的に認識して翻訳するので、テキストコンテンツを知らないために、入力できないという問題を視覚的理解技術によって完全に解決することができる。また、翻訳粒度が多次元であり、現在の画像翻訳モードにおける全画面翻訳、単語抽出／単語分割翻訳モードによってフレーズ、文、段落を粒度とするコンテンツを翻訳できないという問題を解決することができ、ユーザの学習シーンでの多様な翻訳要求を容易に満たすことができ、学生の学習要求により合致することができる。同時に、フレーズ、文又は段落に基づいて、差別化された構造化学習情報をユーザに提供することができ、試験のコンテンツの要点を効率的に取得して、学習効率を向上させることができる。

図３を参照すると、図３は、本願の実施例に係る音声調整装置の構成図が示されている。図３に示すように、本実施例に係る翻訳装置３００は、翻訳されるテキストを含む画像を取得する取得モジュール３０１と、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得する分割モジュール３０２と、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得する受信モジュール３０３と、上記翻訳対象を翻訳する翻訳モジュール３０４と、を含んでいる。

本願の一実施例では、上記分割モジュール３０２は、上記画像に対してコンテンツ認識を行って、第１の認識結果を取得する第１の認識サブモジュールと、上記第１の認識結果における文字を分割して、上記複数のターゲット対象を取得する第１の分割サブモジュールと、上記画像内の、クリックボックスをさらに含む上記ターゲット対象の位置にクリックボックスを表示する第１の表示サブモジュールと、を含む。上記受信モジュール３０３は、上記複数のターゲット対象のクリックボックスに対する入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得する。

本願の一実施例では、上記第１の表示サブモジュールは、上記画像内の上記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示する第１の表示ユニットと、上記マスクレイヤーにクリックボックスを表示する第２の表示ユニットと、を含む。

本願の一実施例では、上記翻訳モジュール３０４は、上記翻訳対象を翻訳して、翻訳結果を取得する翻訳サブモジュールと、上記テキストにおける上記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出する第１の取得サブモジュールと、ユーザの履歴照会データに基づいて、上記複数のナレッジポイント情報の優先度を決定する決定サブモジュールと、上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるＮ個のナレッジポイント情報を取得する順序付けサブモジュールと、上記翻訳結果及び上記Ｎ個のナレッジポイント情報を表示する第２の表示サブモジュールと、を含む。

本願の一実施例では、上記分割モジュール３０２は、認識モデルを用いて上記画像を認識して、第２の認識結果を取得する第２の認識サブモジュールと、上記第２の認識結果に基づいて上記画像が学習シーンでの画像であると決定すれば、上記画像内の上記テキストを分割して、上記複数のターゲット対象を取得する第２の分割サブモジュールと、を含む。

翻訳装置３００は、図１に示す方法の実施例における電子機器によって実現される各過程を実現することができ、重複を避けるために、ここでは説明を繰り返さない。

本願の実施例に係る翻訳装置３００は、翻訳されるテキストを含む画像を取得し、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得し、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得し、上記翻訳対象を翻訳することにより、テキストへの翻訳を実現でき、上記方法では、翻訳されるテキストを含む画像のみを取得する必要があり、ユーザが翻訳されるテキストを手動で入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。

本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。

図４に示すように、本願の実施例に係る翻訳方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表すことを意図する。電子機器は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及びその他の類似のコンピューティング装置等の様々な形態のモバイル装置をさらに表すことができる。本明細書で示されたコンポーネント、それらの接続及び関係、並びにそれらの機能は、単なる例に過ぎず、本明細書で説明及び／又は要求された本願の実現を限定していることを意図しない。

図４に示すように、該電子機器は、１つ以上のプロセッサ５０１と、メモリ５０２と、高速インタフェース及び低速インタフェースを含む、各コンポーネントを接続するインタフェースと、を含む。各コンポーネントは、異なるバスを介して互いに接続され、かつ共通のマザーボードに取り付けられるか又は必要に応じて他の方式で取り付けられてよい。プロセッサは、電子機器内で実行された、外部入力／出力装置（例えば、インタフェースに結合された表示機器）上にＧＵＩのグラフィック情報を表示するようにメモリ内又はメモリ上に記憶される命令を含む命令を処理することができる。他の実施形態では、必要があれば、複数のプロセッサ及び／又は複数のバスを複数のメモリとともに使用することができる。同様に、複数の電子機器を接続してよく、各機器は、（例えば、サーバアレイ、１組のブレードサーバ又はマルチプロセッサシステムとする）一部の必要な操作を提供する。図４において、１つのプロセッサ５０１を例とする。

メモリ５０２は、本願に係る非一時的なコンピュータ可読記憶媒体である。上記メモリには、少なくとも１つのプロセッサによって実行可能で、本願に係る翻訳方法を上記少なくとも１つのプロセッサに実行させる命令が記憶されている。本願に係る非一時的なコンピュータ可読記憶媒体は、本願に係る翻訳方法をコンピュータに実行させるコンピュータ命令を記憶する。

メモリ５０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば、本願の実施例における翻訳方法に対応するプログラム命令／モジュール（例えば、図３に示される取得モジュール３０１、分割モジュール３０２、受信モジュール３０３及び翻訳モジュール３０４）を記憶することができる。プロセッサ５０１は、メモリ５０２内に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例における翻訳方法を実現する。

メモリ５０２は、オペレーティングシステム及び少なくとも１つの機能に必要なアプリケーションプログラムを記憶できるプログラム記憶領域と、翻訳のための電子機器の使用に応じて作成されたデータ等を記憶することができるデータ記憶領域とを含んでよい。また、メモリ５０２は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスクメモリ素子、フラッシュメモリ素子等の非一時的なメモリ又は他の非一時的な固体メモリ素子を含んでもよい。いくつかの実施例では、メモリ５０２は、好ましくは、プロセッサ５０１に対して遠隔に設置されたメモリを含み、これらの遠隔メモリは、ネットワークにより翻訳のための電子機器に接続することができる。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びそれらの組み合わせを含むが、これらに限定されない。

翻訳方法のための電子機器は、入力装置５０３及び出力装置５０４をさらに含んでよい。プロセッサ５０１、メモリ５０２、入力装置５０３及び出力装置５０４は、バス又は他の方式で接続されてよく、図４において、バスによる接続を例とする。

入力装置５０３は、入力された数字又は文字情報を受信したり、翻訳のための電子機器のユーザ設定及び機能制御に関連するキー信号の入力を生成したりすることができ、入力装置としては、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック等の入力装置がある。出力装置５０４は、表示機器、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モータ）等を含んでよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイ等を含んでよいが、これらに限定されない。いくつかの実施形態では、表示機器は、タッチスクリーンであってよい。

本明細書に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ以上のコンピュータプログラムにおける実施を含んでよく、該１つ以上のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能及び／又は解釈されてよく、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってよく、記憶システム、少なくとも１つの入力装置及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置及び該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、かつ高レベルなプロセス及び／又はオブジェクト指向のプログラミング言語、及び／又はアセンブリ／機械言語により実施することができる。本明細書で使用されるように、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、機械命令及び／又はデータをプログラマブルプロセッサに提供する任意のコンピュータプログラム製品、機器及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、コンピュータ上で本明細書に説明されたシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示する表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティング装置（例えば、マウス又はトラックボール）とを有し、ユーザは、該キーボードと該ポインティング装置により、入力をコンピュータに提供することができる。他のタイプの装置は、ユーザとの対話をさらに提供することができ、例えば、ユーザに対して提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック又は触覚フィードバック）であってよく、また、任意の形式（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

本明細書に説明されたシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバとする）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザが本明細書に説明されたシステム及び技術の実施形態と対話できるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、及びインターネットを含む。

コンピュータシステムは、クライアントとサーバを含んでもよい。クライアントとサーバは、一般的に、互いに離れ、かつ通常、通信ネットワークを介して対話する。クライアントとサーバの関係は、対応するコンピュータ上で実行し、かつ互いにクライアント－サーバ関係を有するコンピュータプログラムによって生成される。

本願の実施例に係る技術手段によれば、翻訳されるテキストを含む画像を取得し、上記画像内の上記テキストを分割して、上記テキストの文字又は単語を含む複数のターゲット対象を取得し、上記複数のターゲット対象に対する入力操作を受信して、上記複数のターゲット対象のうちの翻訳対象を取得し、上記翻訳対象を翻訳することにより、テキストへの翻訳を実現できる。上記方法では、翻訳されるテキストを含む画像のみを取得するだけでよく、ユーザが手動で翻訳されるテキストを入力する必要がないため、ユーザの操作を簡略化し、翻訳効率を向上させることができる。また、上記方法は、ユーザが翻訳されるテキストを知らない場合にも適用できるので、ユーザが新たな知識を自律的に学習し、新たな物事を理解するのに役立つ。

上記入力操作は、上記複数のターゲット対象のうちの１つのターゲット対象又は位置が連続しない複数のターゲット対象に対する第１の入力であり、或いは上記複数のターゲット対象のうちの位置が連続する複数のターゲット対象に対する第２の入力である。ユーザは、実際のニーズに応じてテキスト内の複数のターゲット対象の一部又は全てを選択するので、ユーザの入力操作を簡略化して、入力効率を向上させることができる。同時に、入力操作によってテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を選択するので、後続の翻訳ステップではテキスト内の位置が連続しない複数のターゲット対象又は位置が連続する複数のターゲット対象を翻訳する。このため、テキスト内のコンテンツへの選択的翻訳の柔軟性を向上させることができる。

上記画像に対してコンテンツ認識を行って、第１の認識結果を取得し、上記第１の認識結果における文字を分割して、複数のターゲット対象を取得し、上記画像内の上記ターゲット対象の位置にクリックボックスを表示し、上記複数のターゲット対象のクリックボックスに対する入力操作を受信して、上記複数のターゲット対象のうちの、上記クリックボックスに対応する文字又は単語である翻訳対象を取得する。ユーザにターゲット対象を選択するためのクリックボックスを提供するので、ユーザは、クリックボックスを選択することでターゲット対象を選択する。電子機器は、ユーザが選択したターゲット対象に基づいて翻訳するので、ユーザによる入力を簡略化し、入力効率を向上させることができ、翻訳効率を向上させることができる。

より高い表示効果を達成するために、画像内のターゲット対象の位置に所定の透明度のマスクレイヤーを表示して、マスクレイヤーにクリックボックスを表示することとしてもよい。ユーザは、クリックボックスを選択することで翻訳を必要とするターゲット対象を選択することができる。ユーザは、翻訳する文字又は単語を手動で入力する必要がなくなるので、ユーザによる入力を簡略化し、入力効率を向上させ、最終的に翻訳効率を向上させることができる。

上記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるＮ個のナレッジポイント情報を取得する。例えば、表示する際に、優先度に応じて大きい順に順序付けてＮ個のナレッジポイント情報を順次表示する。このように、優先度の高いナレッジポイント情報がより前方の位置に表示されるので、ユーザは、必要な情報を、高い確率で、できるだけ早く取得することができ、ユーザによる情報検索のコストを低減することができる。

画像内のテキストを分割する前に、まず、画像の学習シーンを判断し、画像が学習シーンである場合には、画像内のテキストを分割する。シーンのニーズに応じて分割するので、不要な分割を低減することができる。

上記様々な形態のフローを用いて、ステップを改めて順序付けたり、追加したり、削除したりすることができることを理解されたい。例えば、本願で開示された技術手段の所望の結果を実現する限り、本願に記載された各ステップは、並列的に実行されてもよく、順次実行されてもよく、異なる順序で実行されてもよく、本明細書は限定しない。

上記具体的な実施例は、本願の保護範囲を限定するものではない。当業者に理解できるように、設計要求及びその他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ及び置換を行うことができる。本願の精神と原則内に行われるいかなる修正、同等置換及び改善等は、いずれも本発明の保護範囲内に含まれるべきである。

Claims

翻訳装置により実行される翻訳方法であって、
翻訳されるテキストを含む画像を取得することと、
前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得することと、
前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得して前記翻訳対象を翻訳することと、
を含み、
前記画像内の前記テキストを分割して、複数のターゲット対象を取得することが、
認識モデルを用いて前記画像を認識して、第２の認識結果を取得することと、
前記第２の認識結果に基づいて前記画像が学習シーンでの画像であると決定した場合に、前記画像内の前記テキストを分割して、前記複数のターゲット対象を取得することと、
を含む翻訳方法。
前記翻訳対象は、前記複数のターゲット対象のうちの１つのターゲット対象、又は位置が連続しない複数のターゲット対象、又は前記複数のターゲット対象のうちの位置が連続する複数のターゲット対象を含む、請求項１に記載の方法。
前記画像内の前記テキストを分割して、ターゲット対象を複数取得することは、
前記画像に対してコンテンツ認識を行って、第１の認識結果を取得することと、
前記第１の認識結果における文字を分割して、前記複数のターゲット対象を取得することと、
前記画像内の、クリックボックスをさらに含む前記ターゲット対象の位置にクリックボックスを表示することと、を含み、
前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得することは、
前記複数のターゲット対象のクリックボックスに対する入力操作を受信して、前記複数のターゲット対象のうちの、前記クリックボックスに対応する文字又は単語である翻訳対象を取得することを含む、請求項１に記載の方法。
前記第１の認識結果における文字を分割して、前記複数のターゲット対象を取得することは、
前記第１の認識結果における文字を行ごとに分割して、少なくとも１行の文字情報を取得することと、
前記少なくとも１行の文字情報内の各行の文字情報をそれぞれ文字間隔に応じて分割して、前記複数のターゲット対象を取得することと、を含む、請求項３に記載の方法。
前記画像内の前記ターゲット対象の位置にクリックボックスを表示することは、
前記画像内の前記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示することと、
前記マスクレイヤーにクリックボックスを表示することと、を含む、請求項３に記載の方法。
前記翻訳対象を翻訳することは、
前記翻訳対象を翻訳して、翻訳結果を取得することと、
前記テキストにおける前記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出することと、
ユーザの履歴照会データに基づいて、前記複数のナレッジポイント情報の優先度を決定することと、
前記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるＮ個のナレッジポイント情報を取得することと、
前記翻訳結果及び前記Ｎ個のナレッジポイント情報を表示することと、を含む、請求項１に記載の方法。
翻訳されるテキストを含む画像を取得する取得モジュールと、
前記画像内の前記テキストを分割して、前記テキストの文字又は単語を含む複数のターゲット対象を取得する分割モジュールと、
前記複数のターゲット対象に対する入力操作を受信して、前記複数のターゲット対象のうちの翻訳対象を取得する受信モジュールと、
前記翻訳対象を翻訳する翻訳モジュールと、
を含み、
前記分割モジュールが、
認識モデルを用いて前記画像を認識して、第２の認識結果を取得する第２の認識サブモジュールと、
前記第２の認識結果に基づいて前記画像が学習シーンでの画像であると決定した場合に、前記画像内の前記テキストを分割して、前記複数のターゲット対象を取得する第２の分割サブモジュールと、
を含む翻訳装置。
前記翻訳対象は、前記複数のターゲット対象のうちの１つのターゲット対象、又は位置が連続しない複数のターゲット対象、又は前記複数のターゲット対象のうちの位置が連続する複数のターゲット対象を含む、請求項７に記載の装置。
前記分割モジュールは、
前記画像に対してコンテンツ認識を行って、第１の認識結果を取得する第１の認識サブモジュールと、
前記第１の認識結果における文字を分割して、前記複数のターゲット対象を取得する第１の分割サブモジュールと、
前記画像内の、クリックボックスをさらに含む前記ターゲット対象の位置にクリックボックスを表示する第１の表示サブモジュールと、を含み、
前記受信モジュールは、前記複数のターゲット対象のクリックボックスに対する入力操作を受信して、前記複数のターゲット対象のうちの、前記クリックボックスに対応する文字又は単語である翻訳対象を取得する、請求項７に記載の装置。
前記第１の分割サブモジュールは、
前記第１の認識結果における文字を行ごとに分割して、少なくとも１行の文字情報を取得し、
前記少なくとも１行の文字情報内の各行の文字情報をそれぞれ文字間隔に応じて分割して、前記複数のターゲット対象を取得する、請求項９に記載の装置。
前記第１の表示サブモジュールは、
前記画像内の前記ターゲット対象の位置に所定の透明度のマスクレイヤーを表示する第１の表示ユニットと、
前記マスクレイヤーにクリックボックスを表示する第２の表示ユニットと、を含む、請求項９に記載の装置。
前記翻訳モジュールは、
前記翻訳対象を翻訳して、翻訳結果を取得する翻訳サブモジュールと、
前記テキストにおける前記翻訳対象の文脈を取得して、データベースから複数のナレッジポイント情報を抽出する第１の取得サブモジュールと、
ユーザの履歴照会データに基づいて、前記複数のナレッジポイント情報の優先度を決定する決定サブモジュールと、
前記複数のナレッジポイント情報を優先度に応じて順序付け、上位に順序付けられた、正の整数であるＮ個のナレッジポイント情報を取得する順序付けサブモジュールと、
前記翻訳結果及び前記Ｎ個のナレッジポイント情報を表示する第２の表示サブモジュールと、を含む、請求項７に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサに実行可能で、前記少なくとも１つのプロセッサによって実行されると、請求項１から６のいずれか一項に記載の方法を前記少なくとも１つのプロセッサに実行させる命令が記憶されている、電子機器。
請求項１から６のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１から６のいずれか一項に記載の方法が実現されるコンピュータプログラム。