JP2022126815A

JP2022126815A - 表示方法、表示装置、電子機器、記憶媒体およびプログラム

Info

Publication number: JP2022126815A
Application number: JP2022101792A
Authority: JP
Inventors: 海峰王; Haifeng Wang; 占一劉; Zhanyi Liu; 中軍何; Zhongjun He; 華呉; Hua Wu; 芝李; Zhi Li; 星万; Xing Wan; 静 ▲シュエン▼ 趙; Jingxuan Zhao; 睿卿張; Ruiqing Zhang; 伝強張; Chuanqiang Zhang; 鋒涛黄; Fengtao Huang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-18
Filing date: 2022-06-24
Publication date: 2022-08-30
Also published as: US20220391602A1; CN113657082A

Abstract

【課題】ユーザの表示すべきコンテンツに対する理解を強化することができる表示方法及び表示装置を提供する。【解決手段】表示方法は、表示すべきコンテンツを取得することと、用語抽出規則を用いてコンテンツから目標用語を抽出することと、少なくとも一つの目標用語を抽出したことに応答し、少なくとも一つの目標用語に対する注釈情報を取得することと、少なくとも一つの目標用語の注釈情報及びコンテンツを表示することと、を含む。【効果】表示方法及び装置は、少ない又は手動介入がない状況でインテリジェントな自然言語処理サービスを提供することができ、ユーザに便利な用語カスタマイズサービスを提供し、それによりユーザの表示すべきコンテンツに対する理解を強化することができる。【選択図】図２

Description

本開示は、自然言語処理分野及び表示分野に関し、具体的には、用語注釈技術に関し、より具体的には、表示方法及び表示装置に関する。

自然言語処理技術は、人工知能分野のベースとしてますます多くの注目を集めている。しかしながら、異なる分野に多くの専門的な業界用語が存在するため、現在の自然言語処理技術はこれらの用語を正確に、針対的に処理することが困難である。

特に同時通訳技術に対して、現在の同時通訳装置は業界用語に対する音声認識及び翻訳エラーが多く、異なる専門分野の需要を満たすことが困難である。また、使用者はいくつかの用語に対して見知らぬ可能性があるため、内容に対する理解に影響を与える可能性がある。

本開示は、表示方法および表示装置、電子機器、記憶媒体およびプログラムを提供する。

本開示の一態様によれば、表示方法を提供し、
表示すべきコンテンツを取得することと、
用語抽出規則を用いて前記コンテンツから目標用語を抽出することと、
少なくとも一つの目標用語を抽出したことに応答し、前記少なくとも一つの目標用語に対する注釈情報を取得することと、
前記少なくとも一つの目標用語の注釈情報及び前記コンテンツを表示することと、を含む。

本開示の別の態様によれば、表示装置を提供し、
表示すべきコンテンツを取得するように構成されるコンテンツ取得モジュールと、
用語抽出規則を用いて前記コンテンツから目標用語を抽出するように構成される用語抽出モジュールと、
少なくとも一つの目標用語を抽出したことに応答し、前記少なくとも一つの目標用語に対する注釈情報を取得するように構成される注釈情報取得モジュールと、
前記少なくとも一つの目標用語の注釈情報及び前記コンテンツを表示するように構成される表示モジュールと、を含む。

本開示の別の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、前記メモリに、前記少なくとも１つのプロセッサにより実行可能な命令が記憶され、前記少なくとも１つのプロセッサが本開示の例示的な実施例に記載の方法を実行可能であるように、前記命令が前記少なくとも１つのプロセッサにより実行される。

本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、該コンピュータ命令は前記コンピュータに本開示の例示的な実施例に記載の方法を実行させる。

本開示の別の態様によれば、プロセッサにより実行される時に本開示の例示的な実施例に記載の方法を実現するコンピュータプログラムを提供する。

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

図面の簡単な説明
図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。

本開示の例示的な実施例による表示方法及び表示装置の適用シーンの例示である。本開示の例示的な実施例による表示方法のフローチャートである。本開示の例示的な実施例による表示方法の別例を示すフローチャートである。本開示の例示的な実施例による候補用語及び候補用語注釈情報を決定するための操作の一例のフローチャートである。本開示の例示的な実施例による候補用語及び候補用語注釈情報を決定するための操作の別例のフローチャートである。本開示の例示的な実施例によるコンテンツ及び用語に関する注釈情報の一例を表示するためのインタフェースである。本開示の例示的な実施例によるコンテンツ及び用語に関する注釈情報の別例を示すためのインタフェースである。本開示の例示的な実施例による表示装置の一例のブロック図である。本開示の例示的な実施例による表示装置の別例のブロック図である。図７Ａに示す表示装置の各モジュール間の信号フローを示す図である。本開示の実施例の電子機器の別例を実現するためのブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含み理解することに役立ち、それらを例示的なものと考えるべきである。したがって、当業者であれば、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。

本開示の例示的な実施例に係る表示方法及び表示装置は様々な自然言語処理のシーンに適用することができ、例えば、字幕翻訳、機械同時通訳、コンテンツ要約抽出等のシーンに適用することができる。適用例として、図１は、本開示の例示的な実施例に係る表示方法及び表示装置を機械同時通訳のシーンに適用することを示す。以下、図１について詳細に説明する。

機械同時通訳は音声認識及び機械翻訳技術を利用し、スピーカの発話コンテンツを自動的に認識し、音声を文字に変換して目的言語に翻訳することができる。グローバル化発展に伴い、国際交流が頻繁であり、機械同時通訳に対する需要がますます多くなり、広い発展空間が存在する。

図１に示すように、例えば機械同時通訳の自然言語処理シーンでは、複数のユーザ１０１～１０４が存在する可能性があり、そのうち複数のユーザ１０１～１０４のうちの一つ（例えば、ユーザ１０１がスピーカ）として発話し、他のユーザ１０２、１０３及び１０４はそれぞれの機器（例えば、携帯電話、パソコン、モニター等の電子機器）により機械同時通訳の翻訳結果を閲覧する。ユーザ１０１が発言する時に、該ユーザの音声を収集し、それに対して音声認識を行い、かつ本開示の例示的な実施例による音声処理方法を介して相応的な音声認識結果に業界用語が存在するか否かを決定することができる。業界用語が存在する場合、本開示の実施例による音声処理方法を使用して相応的なコンテンツを処理することができる。

当業者としてわかるように、本開示は該シーンに限定されるものではなく、自然言語処理を必要とする様々なシーンに適用することができる。

図２は、本開示の例示的な実施例による表示方法のフローチャートを示す。
図２に示すように、本開示の例示的な実施例による表示方法２００は以下の操作を含むことができる。

ステップＳ２１０において、表示すべきコンテンツを取得する。表示すべきコンテンツは音声、テキスト及び画像のうちの少なくとも一つを含むことができる。

例えば、表示すべきコンテンツが音声を含むコンテンツである場合、発言者が発言する時に発言者の音声を収集し、かつ音声を処理することにより音声処理結果を取得することができる。例えば、音声認識技術を用いて収集された音声を認識し、かつ語義解析技術、翻訳技術などを用いて処理し、それにより音声処理結果を取得することができる。一例において、様々なトレーニングされた音声認識モデルにより収集された音声を認識することができ、かつ認識は基本的にリアルタイム的なものである。例えば、ＴＲＡＮＳＦＯＲＭＥＲの双方向エンコーダ表示（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒｍＴｒａｎｓｆｏｒｍｅｒｓ、ＢＥＲＴ）ネットワーク、ＴＲＡＮＳＦＯＲＭＥＲネットワーク等のネットワークモデルに基づいて音声に対する認識を実行することができる。

別例において、表示すべきコンテンツが画像を含むコンテンツである場合、光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）等の文字認識技術を用いて画像を認識し、それにより画像認識結果を取得することができる。

また、別例として、表示すべきコンテンツがテキストを含むコンテンツである場合、例えば、字幕翻訳又はテキスト要約抽出の適用シーンで、表示すべきコンテンツが大量の文字を有するテキストである可能性があり、自然言語処理技術を用いて含まれる文字を認識することにより、後続の目標用語抽出の実行に用いられる。

ステップＳ２２０において、用語抽出規則を用いてコンテンツから目標用語を抽出する。用語抽出規則は、トレーニングされたタグ付け（Ｔａｇｇｉｎｇ）モデル、単語出現頻度分析、テキストスタイル差異等のうちの少なくとも１つに基づくことができる。例えば、トレーニングされたタグ付けモデルは、例えばＢＥＲＴアーキテクチャを採用するタグ付けモデルであってもよく、用語タグ付けデータセットにトレーニングすることにより、用語抽出モデルを実現する。当業者としてわかるように、タグ付けモデルのアーキテクチャはＢＥＲＴネットワークに限定されず、用語抽出を実現できる様々なタイプのトレーニングモデルを採用することができる。別例として、単語出現頻度分析に基づく用語抽出規則は、用語が常に汎用分野に出現頻度が低く、専用分野に出現頻度が高い単語であるという事実に基づくことができる。したがって、単語確率を統計することにより、上記条件に合致する単語を見つけて用語とすることができる。また、表示すべきコンテンツがテキストを含む場合、用語抽出規則は、テキストスタイル差異に基づく規則であってもよい。一例において、テキストにおける特殊なスタイルに対してキーワードを抽出することができ、特殊なスタイルは例えば太字、斜体、短文独立出現などの状況を含む。当業者としてわかるように、上記用語抽出規則を単独で使用してもよく、任意の組み合わせの方式で組み合わせて使用してもよい。

ステップＳ２３０において、少なくとも一つの目標用語を抽出したことに応答して、少なくとも一つの目標用語に対する注釈情報を取得する。注釈情報は、目標用語の解釈や説明、目標用語に対応する翻訳結果等の情報のうちの少なくとも一つを含んでもよい。一例において、ローカルデータベースを照会するか又はインターネットにアクセスすることにより少なくとも一つの目標用語に対する注釈情報を取得することができる。照会するために、ローカルデータベースは、蓄積された各分野の業界用語及びそれらに対応する注釈情報を記憶することができる。また、インターネットを介して少なくとも一つの目標用語に対する注釈情報を取得することは、インターネットを介して例えば様々な百科ＡＰＰ等にアクセスするサービスを提供し、それにより用語に関する注釈情報を取得することを含むことができる。

ステップＳ２４０において、少なくとも一つの目標用語の注釈情報及びコンテンツを表示する。すなわち、コンテンツと該コンテンツに含まれる目標用語の注釈情報との両方を表示することができる。一例において、コンテンツを表示すると同時に用語に関する注釈情報を表示することができる。また、強調して突出するように、該コンテンツに含まれる注釈情報に対応する用語は、該用語以外の他の部分と異なる視覚効果を有するように表示されることができる。

本開示の例示的な実施例は、表示方法を提供し、用語抽出を自動的に実行し、用語に関する注釈情報を取得し、かつ該コンテンツ及び該用語に関する注釈情報を表示することにより、少ない又は手動介入がない状況でインテリジェントな自然言語処理サービスを提供することができ、それとともに、ユーザに便利な用語のカスタマイズを提供し、ユーザのコンテンツに対する理解を強化することができる。

用語抽出の効率及びその注釈情報の正確性をさらに改善するために、本開示の例示的な実施例による表示方法は、目標用語を決定するときに用いられるように、複数の候補用語及びそれらに対応する候補注釈情報を予め決定することを付加的に含んでもよい。図３は、本開示の実施例による表示方法の別例のフローチャートを示す。

図３に示すように、表示方法３００は以下の操作を含むことができる。
ステップＳ３０５において、表示すべきコンテンツの関連コンテンツに基づいて、用語抽出規則を用いて、複数の候補用語及び相応的な候補用語注釈情報を決定する。関連コンテンツは、表示すべきコンテンツに関するコンテンツであり、会議シーンで、発言者の発言原稿、発言者のスクリーン画面、会議関連資料ライブラリ等を含むことができる；字幕翻訳シーンで、映画関連字幕等を含むことができる。一例において、関連コンテンツに基づいて候補用語及び候補用語注釈に係るデータベースを作成して記憶することができ、これにより、用語認識時に用語を迅速で正確に抽出しかつ用語注釈情報を取得する。

ステップＳ３１０において、表示すべきコンテンツを取得することができる。ステップＳ３１０は、図２に示すステップＳ２１０と類似するため、説明を省略する。

そして、コンテンツに対して分析を実行することにより、コンテンツに含まれる目標用語を抽出することができる。ステップＳ３０５において複数の候補用語及び候補用語注釈情報を決定したため、ステップＳ３２０において、コンテンツに少なくとも一つの候補用語が含まれるか否かを決定することができ、かつコンテンツに候補用語が含まれることを決定したことに応答し、含まれる候補用語を目標用語として抽出する。

ステップＳ３３０において、該候補用語に対応する記憶された候補用語注釈情報を取得し、それを該目標用語に対する注釈情報としてもよい。

ステップＳ３４０において、コンテンツを表示すると同時に該コンテンツに含まれる目標用語の注釈情報を表示することができる。ステップＳ３４０が図２に示すステップＳ２４０と類似するため、説明を省略する。

以下、図４Ａ及び図４Ｂを参照しながら、候補用語及び候補用語注釈情報を決定するための複数の例を説明する。

図４Ａは、本開示の例示的な実施例による候補用語及び候補用語注釈情報を決定するための操作の第一例のフローチャートである。図４Ａに示すように、該操作は以下の操作を含むことができる。

ステップＳ４０５-１ａにおいて、表示すべきコンテンツに関連する関連テキストを受信する。本例示において、関連テキストは発言者の発言原稿、発言者の参照資料、関連字幕などを含むがこれらに限定されない。

ステップＳ４０５-２ａにおいて、用語抽出規則を用いて関連テキストから複数の候補用語を決定し、かつ複数の候補用語に対応する候補用語注釈情報を取得することができる。例えば、上記の用語抽出規則を使用して発言原稿であるｐｐｔ又は関連文書から初期候補用語集を抽出する；かつ初期候補用語集を選別してフィルタリングすることにより、初期候補用語集を重複除去し、それにより最終的な候補用語集を取得することができる。

図４Ｂは、本開示の例示的な実施例による候補用語及び候補用語注釈情報を決定するための操作の第二例のフローチャートである。図４Ｂに示すように、該操作は以下の操作を含むことができる。

ステップ４０５-１ｂにおいて、表示すべきコンテンツに関連する関連画像を取得し、例えば、関連画像は発言者が発言するときのスクリーン画面であってもよい。

ステップ４０５-２ｂにおいて、関連画像を認識して、関連画像認識結果を取得する。例えば、様々な認識手段を用いてスクリーン画面に含まれる情報を認識することができ、例えば、光学文字認識手段により関連画像に含まれる文字情報を認識することができる。

ステップ４０５-３ｂにおいて、前記のような用語抽出規則を用いて関連画像認識結果から複数の候補用語を決定し、それらに対応する候補用語注釈情報を取得することができる。

また、別の例において、汎用又は業界専用の用語ライブラリを添加することにより、相応的なライブラリに含まれる用語を候補用語として使用することができる。例えば、会議中に同時通訳を行うシーンでは、用語ライブラリは会議主催者によって提供されたデータベースであってもよく、それにより用語をより迅速で、より正確に抽出しかつ用語に関する注釈情報を取得することができる。

以上、候補用語を決定するための操作のいくつかの例を説明したが、当業者としてわかるように、本発明の構想は他の例を含むことができ、かつ本発明の構想から逸脱しない前提で任意の方式で異なる例示を組み合わせることができる。

以上のようにして決定された候補用語は全ての目標用語に対する抽出に適用することができる。又は、上記した候補用語を決定する過程を経た後、投票メカニズムにより前のＫ個の候補用語を選択して最終的な候補用語集とし、かつそれを目標用語の抽出に適用することができる。前記のように、表示すべきコンテンツを取得した後、該コンテンツが複数の候補用語のうちの少なくとも一つを含むか否かを決定し、かつコンテンツが少なくとも一つの候補用語を含むことを決定したことに応答し、相応的な候補用語及びそれらに対応する候補用語注釈情報を目標用語及び該目標用語に対する注釈情報として抽出することができる。したがって、複数の候補用語及びそれらに対応する候補注釈情報を予め決定することにより、目標用語に対する抽出を加速することができるだけでなく、注釈情報の正確性を改善し、それによりユーザのコンテンツに対する理解を強化することができる。

また、前記のような候補用語及びそれらに対応する候補用語注釈情報を決定する例において、本開示の実施例による方法は、決定された複数の候補用語及びそれらに対応する候補用語注釈を監査する操作をさらに含んでもよい。例えば、監査者により決定された複数の候補用語及び／又はそれらに対応する候補用語注釈を人工的に監査することができる。当業者としてわかるように、人工監査に加えて、適切な監査アルゴリズムを付加的に組み合わせるか又は監査アルゴリズムを単独で使用して候補用語及び／又は関連注釈情報を監査することができる。これにより、低い人力で用語に対する抽出及び用語注釈の介入を実現することができ、それにより、より専門的な用語注釈を提供する。

図５Ａ及び図５Ｂは、本開示の実施例によるコンテンツ及び用語に関する注釈情報を表示するための例である。

図５Ａ及び図５Ｂは、本開示の例示的な実施例による表示方法を用いたユーザ機器の表示画面を示している。本開示の例示的な実施例による表示方法は、少なくとも一つの目標用語に対する注釈情報と表示すべきコンテンツとの両方を表示することができる。図５Ａ及び図５Ｂに示すように、表示画面は、表示すべきコンテンツを表示するための第一領域５１０、用語の注釈情報を表示するための第二領域５２０ａ又は５２０ｂ、及び他のコンテンツを表示するための第三領域５３０を含むことができる。具体的には、図５Ａは、第二領域５２０ａにおいて目標言語のみで目標用語に対する注釈を表示する例示的な画面を示す；かつ図５Ｂは、第二領域５２０ｂにおいて目標言語とソース言語との両方で目標用語に対する注釈を表示する例示的な画面を示す。

同時通訳のシーンで、第一領域５１０に発言者の発言コンテンツ及びそれらに対応する翻訳結果を表示し、第二領域５２０a／５２０ｂに発言コンテンツに含まれる目標用語の注釈を表示し、第三領域５３０に会議現場の画面を表示することができる。例えば、発言者が「ＷｅｉｍｐｌａｎｔｅｄＩｎｔｅｌｌｉｇｅｎｔＢｒａｉｎｉｎｔｏｔｈｅｒｏｂｏｔ」の音声を発する場合、本開示の実施例の表示方法に基づいて該音声を取得し、かつ音声認識技術及び処理技術により該音声がソース言語が英語であり、発言コンテンツが「ＷｅｉｍｐｌａｎｔｅｄＩｎｔｅｌｌｉｇｅｎｔｉｎｔｏｔｈｅｒｏｂｏｔ」であることを認識することができる。また、システム設定を見ることによりわかるように、目的言語は例えば日本語、中国語である。このような状況で、図５Ａ及び図５Ｂに示すように、第一領域５１０に日本語で、すなわち、「われわれがインテリジェントブレインをロボットに植込む」（中国語の場合に、

）で発言コンテンツの翻訳結果を表示することができる。
次に、用語認識規則を用いてコンテンツを分析し、又は候補用語集にマッチングすることにより、「インテリジェントブレイン」が該語句に含まれる用語５１５であることを決定することができ、したがって、「インテリジェントブレイン」に対応する注釈情報を取得することができる。このように、該例示では、図５Ａに示すように、第二領域５２０ａにおいて日本語で「インテリジェントブレイン」（中国語

）５１５という用語に対する注釈情報を表示することができる。又は、図５Ｂに示すように、第二領域５２０ｂにおいて日本語および英語の両方で該用語に対する注釈情報を表示することにより、ソース言語ユーザと目標言語ユーザが関連コンテンツをよりよく理解することに役立つ。

また、注意すべきこととして、コンテンツを表示するための第一領域において、目標用語の表示視覚効果が該コンテンツにおける他の部分の表示視覚効果と異なるように設定されることである。例えば、図５Ａ及び図５Ｂに示すように、ハイライトの形式で目標用語を強調表示することができ、それによりユーザに該単語が業界用語に属しかつ閲覧可能な注釈情報を有することを提示しかつ、それにより、ユーザが注釈情報を組み合わせて関連音声コンテンツを迅速に理解することを助けることができる。当業者としてわかるように、ハイライト表示に加えて、他のスタイル例えば、斜体、太り、下線などを用いて目標用語を区別して表示することができる。

これにより、本開示の例示的な実施例による表示方法は、コンテンツを表示すると同時に用語の介入を行うことができ、用語に対する注釈を提供し、それによりユーザが関連コンテンツをよりよく理解することができる。

また、本開示の例示的な実施例は、さらに表示装置を提供する。図６は、本開示の例示的な実施例による表示装置の一例のブロック図である。

図６に示すように、表示装置６００は、コンテンツ取得モジュール６１０、用語抽出モジュール６２０、注釈情報取得モジュール６３０及び表示モジュール６４０を含むことができる。

コンテンツ取得モジュール６１０は、表示すべきコンテンツを取得するように構成されることができる。表示すべきコンテンツは、音声、テキスト及び画像のうちの少なくとも一つを含むことができる。例えば、コンテンツ取得モジュール６１０は、音声処理サブモジュール６１１を含むことができ、表示すべきコンテンツが音声を含む場合、音声を処理して、音声処理結果を取得するように構成される。また、コンテンツ取得モジュール６１０は、画像認識サブモジュール６１２を付加的に含むことができ、表示すべきコンテンツが画像を含む場合、画像に対して光学文字認識を行うことにより、画像認識結果を取得するように構成される。別例として、コンテンツ取得モジュール６１０は、テキストサブモジュール６１３を付加的に含むことができ、表示すべきコンテンツがテキストを含む場合、コンテンツに含まれるテキストを取得してそれを処理するように構成される。

用語抽出モジュール６２０は、用語抽出規則を用いてコンテンツから目標用語を抽出するように構成されることができる。用語抽出規則は、トレーニングされたタグ付け（Ｔａｇｇｉｎｇ）モデル、単語出現頻度分析、テキストスタイルの差異等のうちの少なくとも一つに基づくことができる。当業者としてわかるように、上記用語抽出規則を単独で使用してもよく、任意の組み合わせの方式で組み合わせて使用してもよい。

注釈情報取得モジュール６３０は、少なくとも一つの目標用語を抽出したことに応答し、少なくとも一つの目標用語に対する注釈情報を取得するように構成されることができる。注釈情報取得モジュール６３０は、ローカルデータベースを照会するか又はインターネットにアクセスすることにより少なくとも一つの目標用語に対する注釈情報、例えば、目標用語の解釈及び説明、目標用語に対応する翻訳結果等の情報のうちの少なくとも一つを取得することができる。

表示モジュール６４０は、少なくとも一つの目標用語の注釈情報及び表示すべきコンテンツを表示するように構成されることができる。前記のように、表示モジュール６４０は、該コンテンツを表示すると同時に用語に関する注釈情報を表示することができ、ここで該コンテンツに含まれる注釈情報に対応する用語は、該用語以外の他の部分とは異なる視覚効果を有するように表示されることができ、これにより、強調して突出される。一例において、表示モジュール６４０は、第一領域において目標言語でコンテンツの翻訳結果を表示し、かつ第二領域において目標言語で少なくとも一つの目標用語に対する注釈情報を表示するようにさらに構成される。選択的には、表示モジュール６４０は、さらに、第一領域において目標言語でコンテンツの翻訳結果を表示し、かつ第二領域において音声のソース言語と目標言語との両方で少なくとも一つの目標用語に対する注釈情報を表示するように構成される。

本開示の例示的な実施例は、表示装置を提供し、少ない又は手動介入がない状況でインテリジェントな自然言語処理サービスを提供することができ、それと同時にユーザに便利な用語のカスタマイズを提供することができ、ユーザのコンテンツに対する理解を強化する。

図７Ａは、本開示の例示的な実施例による表示装置の別例を示すブロック図である。
図７Ａに示す表示装置７００は、コンテンツ取得モジュール７１０、用語抽出モジュール７２０、注釈情報取得モジュール７３０及び表示モジュール７４０を含むことができ、図６に示す表示装置６００と類似する。他に、前記表示装置７００はデータベースモジュール７５０を付加的に含んでもよく、それにより複数の業界用語が記憶された用語ライブラリを直接追加し、かつ複数の業界用語を複数の候補用語とすることができる。また、コンテンツ取得モジュール７１０における音声処理サブモジュール７１１、画像認識サブモジュール７１２及びテキストサブモジュール７１３も表示すべきコンテンツに関連する関連コンテンツを付加的に受信することにより、複数の候補用語及びそれらに対応する候補注釈情報を予め決定することができる。このように用語抽出の効率及びその注釈情報の正確性を改善する。

一例において、テキストサブモジュール７１３は、表示すべきコンテンツに関連する関連テキストを受信するように構成されることができる。この場合、用語抽出モジュール７２０は、さらに、用語抽出規則を用いて関連テキストから複数の候補用語を決定し、かつ表示すべきコンテンツが複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、少なくとも一つの候補用語を目標用語として抽出するように構成されることができる。

別例において、画像認識サブモジュール７１２は、表示すべきコンテンツに関連する関連画像を取得し、関連画像を認識して、関連画像認識結果を取得するように構成されることができる。このとき、用語抽出モジュール７２０は、さらに、用語抽出規則を用いて関連画像認識結果から複数の候補用語を決定し、かつコンテンツが複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、少なくとも一つの候補用語を目標用語として抽出するように構成されることができる。

さらに別例において、データベースモジュール７５０は、複数の業界用語が記憶されたデータベースを追加し、複数の業界用語を複数の候補用語とするように構成されることができる。用語抽出モジュール７２０は、さらに、表示すべきコンテンツが複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、少なくとも一つの候補用語を目標用語として抽出するように構成されることができる。図７Ｂは、本開示の例示的な実施例による表示装置の各モジュール間の信号フローを示している。

図７Ｂに示すように、コンテンツ取得モジュール７１０は、表示すべきコンテンツを取得することができる。表示すべきコンテンツが用語抽出モジュール７２０に提供され、用語抽出規則を用いてコンテンツから目標用語を認識する。表示すべきコンテンツから少なくとも一つの目標用語を抽出したことに応答し、用語抽出モジュール７２０は目標用語を注釈情報取得モジュール７３０に提供することにより、注釈情報取得モジュール７３０が該目標用語に対応する注釈情報を取得する。

表示モジュール７４０は、コンテンツ取得モジュール７１０からの表示すべきコンテンツ、用語抽出モジュール７２０の目標用語及び注釈情報取得モジュール７３０の注釈情報を受信することにより、表示モジュールの第一領域に表示すべきコンテンツを表示するとともに第二領域に注釈情報を表示し、ここで、表示すべきコンテンツに含まれる目標用語は該目標用語以外の他の部分とは異なる表示効果を有するように表示される。例えば、該目標用語は、第一領域にハイライトで表示される。

また、表示装置７００は、候補用語及び候補注釈情報を予め決定することができ、それにより用語抽出の効率及びその注釈情報の正確性をさらに改善する。

候補用語及び候補注釈情報を決定する例において、音声処理装置７００は、データベースモジュール７５０を付加的に含むことができる。また、テキストサブモジュール７１３は、表示すべきコンテンツに関連する関連テキストを用語抽出モジュール７２０に提供して候補用語を決定することができる。画像認識サブモジュール７１２は、表示すべきコンテンツに関連する関連画像を受信して例えばＯＣＲの認識技術により関連画像認識結果を取得し、関連画像認識結果を用語抽出モジュール７２０に提供して候補用語を決定することができる。データベースモジュール７５０は、関連する用語ライブラリを直接的に受信して用語ライブラリに含まれる用語を候補用語とすることができ、ここで用語ライブラリは汎用用語ライブラリ又は専用用語ライブラリであってもよい。

候補用語を決定した場合、注釈情報取得モジュール７３０は、候補用語に関する注釈情報を取得することができる。

前記のように、複数の候補用語及びそれらに対応する候補注釈情報を予め決定することにより、目標用語に対する抽出を加速することができるだけでなく、注釈情報の正確性を改善し、それによりユーザのコンテンツに対する理解を強化することができる。

図７Ｂに示すように、候補用語及び候補注釈情報を決定する場合、監査者／監査アルゴリズムにより決定された複数の候補用語及び／又はそれらに対応する候補用語注釈を監査することができる。このように、低い人力で用語の抽出及び用語の注釈の介入を実現することができる。

したがって、本例示的な実施例が提供する表示装置は少ないか又は手動介入がない状況でインテリジェントな自然言語処理サービスを提供することができるだけでなく、ユーザに便利な用語カスタマイズサービスを提供することができ、ユーザのコンテンツに対する理解を強化する。また、複数の候補用語及びそれらに対応する候補注釈情報を予め決定することにより、目標用語に対する抽出を加速し、注釈情報の正確性を改善し、それによりユーザのコンテンツに対する理解を向上することができる。

本開示の技術的解決手段において、関するユーザ個人情報の取得、記憶及び適用等はいずれも相関法律規則の規定に適合し、かつ公序良俗に反するものではない。

本開示の実施例によれば、本開示はさらに電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品を提供する。

図８は、本開示の実施例を実施可能な例示電子機器８００の概略的なブロック図を示す。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを表示することを意図する。電子機器は、さらに、様々な形式の移動装置を表示することができ、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置である。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図８に示すように、電子機器８００は計算ユニット８０１を含み、リードオンリーメモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム又は記憶ユニット８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ８０３において、さらに電子機器８００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット８０１、ＲＯＭ８０２、およびＲＡＭ８０３は、バス８０４により相互に接続されている。バス８０４には、さらに、入出力インタフェース８０５が接続されている。

電子機器８００における複数の部品はＩ／Ｏインタフェース８０５に接続され、例えばキーボード、マウス等の入力ユニット８０６と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット８０７と、例えば磁気ディスク、光ディスク等の記憶ユニット８０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット８０９と、を含む。通信ユニット８０９は、機器８００がインターネット等のコンピュータネットワークおよび／または各種の電気通信網を介して他の機器と情報／データをやり取りすることを可能にする。

計算ユニット８０１は、各種の処理および計算能力を有する汎用および／または専用の処理モジュールであってもよい。計算ユニット８０１の例示としては、中央処理ユニット（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）計算チップ、各種動作機械学習モデルアルゴリズムの計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット８０１は、上記説明した各方法及びステップを実行し、例えば図２～図５Bに示す方法およびステップである。例えば、いくつかの実施例において、図２～図５Bに示す方法およびステップは、コンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット８０８に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ８０２及び／又は通信ユニット８０９を介して機器８００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ８０３にロードされかつ計算ユニット８０１により実行される場合、上記の方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット８０１は他の任意の適切な方式（例えば、ファームウェアを介すること）により上記の方法およびステップを実行するように構成されてもよい。

本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、チップオンシステムのシステム（ＳＯＣ）、負荷プログラマブルロジック装置（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は以下を含むことができ、一つ又は複数のコンピュータプログラムにおいて、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び／又は解釈され、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送することができる。

本開示の方法を実施するためのプログラムコードは一つ又は複数の言語の任意の組み合わせで作成することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行される時にフローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは機器に完全に実行され、部分的に機器で実行されてもよく、独立したソフトウェアパッケージ部分として機器で実行されかつ遠隔機器で部分的に実行されるか又は完全に遠隔機器又はサーバで実行される。

本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、それは命令実行システム、装置又は装置の使用又は命令実行システム、装置又は装置と組み合わせて使用されるプログラムを含むか又は記憶することができる。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むがそれらに限定されない。機械可読記憶媒体のより具体的な例は一つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、便利式コンパクトフラッシュ（登録商標）メモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、該コンピュータは以下を有する:ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）；及びキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）であって、ユーザは該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができるもの。他の種別の装置はさらにユーザとの対話を提供することに用いられる；例えば、ユーザに提供されたフィードバックはいかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよい；かついかなる形式（声入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されたシステム及び技術はバックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例は以下を含み、ローカル領域ネットワーク（ＬＡＮ）、ワイド領域ネットワーク（ＷＡＮ）及びインターネット。

コンピュータシステムは、クライアント及びサーバを含むことができる。クライアントとサーバとは一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、相応的なコンピュータ上で動作し、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。

理解すべきことは、以上に示した様々な形式のフローを使用し、ステップを改めてソーティングし、追加するか又は削除してもよい。例えば、本開示に記載の各ステップは並列的に実行されてもよいし、順次に実行されてもよいし、異なる順序で実行されてもよく、本開示の技術的解決手段の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば理解すべきことは、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことができることである。本開示の精神と原則内で行われた任意の修正、均等置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

表示すべきコンテンツを取得することと、
用語抽出規則を用いて前記コンテンツから目標用語を抽出することと、
少なくとも一つの目標用語を抽出したことに応答し、前記少なくとも一つの目標用語に対する注釈情報を取得することと、
前記少なくとも一つの目標用語の注釈情報及び前記コンテンツを表示することと、を含む
表示方法。
前記コンテンツは、音声、テキスト及び画像のうちの少なくとも一つを含む
請求項１に記載の表示方法。
前記コンテンツが音声を含む場合、用語抽出規則を用いて前記コンテンツから目標用語を抽出することは、さらに、
前記音声を処理することにより、音声処理結果を取得することと、
前記用語抽出規則を用いて前記音声処理結果から目標用語を抽出することと、を含む
請求項２に記載の表示方法。
前記コンテンツが画像を含む場合、用語抽出規則を用いて前記コンテンツから目標用語を抽出することは、さらに、
前記画像に対して光学文字認識を行い、画像認識結果を取得することと、
前記用語抽出規則を用いて前記画像認識結果から目標用語を抽出することと、を含む
請求項２に記載の表示方法。
前記コンテンツに関連する関連テキストを受信することと、
前記用語抽出規則を用いて前記関連テキストから複数の候補用語を決定することと、をさらに含み、
ここで、前記用語抽出規則を用いて前記コンテンツから目標用語を抽出することは、
前記コンテンツが前記複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、前記少なくとも一つの候補用語を前記目標用語として抽出することをさらに含む
請求項１に記載の表示方法。
前記コンテンツに関連する関連画像を取得することと、
前記関連画像に対して光学文字認識を行い、関連画像認識結果を取得することと、
前記用語抽出規則を用いて前記関連画像認識結果から複数の候補用語を決定することと、をさらに含み、
ここで、前記用語抽出規則を用いて前記コンテンツから目標用語を抽出することは、
前記コンテンツが前記複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、前記少なくとも一つの候補用語を前記目標用語として抽出することをさらに含む
請求項１に記載の表示方法。
複数の業界用語が記憶されたデータベースを添加し、前記複数の業界用語を複数の候補用語とすることをさらに含み、
ここで、前記用語抽出規則を用いて前記コンテンツから目標用語を抽出することは、
前記コンテンツが前記複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、前記少なくとも一つの候補用語を前記目標用語として抽出することをさらに含む
請求項１に記載の表示方法。
前記少なくとも一つの用語の注釈情報及び前記コンテンツを表示することは、
第一領域に前記コンテンツを表示しかつ第二領域に前記少なくとも一つの目標用語に対する注釈情報を表示することを含み、
ここで、前記第一領域において、前記少なくとも一つの目標用語の表示視覚効果は前記コンテンツにおける他の部分の表示視覚効果と異なる
請求項１に記載の表示方法。
前記第一領域に前記コンテンツを表示しかつ第二領域に前記少なくとも一つの目標用語に対する注釈情報を表示することは、
第一領域において目標言語で前記コンテンツの翻訳結果を表示し、かつ第二領域において前記目標言語で前記少なくとも一つの目標用語に対する注釈情報を表示することを含む
請求項８に記載の表示方法。
前記第一領域に前記コンテンツを表示しかつ第二領域に前記少なくとも一つの目標用語に対する注釈情報を表示することは、
第一領域において目標言語で前記コンテンツの翻訳結果を表示し、かつ第二領域において前記コンテンツのソース言語と前記目標言語との両方で前記少なくとも一つの目標用語に対する注釈情報を表示することを含む
請求項８に記載の表示方法。
前記用語抽出規則は、トレーニングされたタグ付けモデル、単語出現頻度分析及びテキストスタイル差異のうちの少なくとも一つに基づくものである
請求項１～１０のいずれか一項に記載の表示方法。
表示すべきコンテンツを取得するように構成されるコンテンツ取得モジュールと、
用語抽出規則を用いて前記コンテンツから目標用語を抽出するように構成される用語抽出モジュールと、
少なくとも一つの目標用語を抽出したことに応答し、前記少なくとも一つの目標用語に対する注釈情報を取得するように構成される注釈情報取得モジュールと、
前記少なくとも一つの目標用語の注釈情報及び前記コンテンツを表示するように構成される表示モジュールと、を含む
表示装置。
前記コンテンツは、音声、テキスト及び画像のうちの少なくとも一つを含む
請求項１２に記載の表示装置。
前記コンテンツ取得モジュールは、前記コンテンツが音声を含む場合、前記音声を処理することにより、音声処理結果を取得するように構成される音声処理サブモジュールをさらに含み、
ここで、前記用語抽出モジュールは、前記用語抽出規則を用いて前記音声処理結果から目標用語を抽出するように構成される
請求項１３に記載の表示装置。
前記コンテンツ取得モジュールは、前記コンテンツが画像を含む場合、前記画像に対して光学文字認識を行うことにより、画像認識結果を取得するように構成される画像認識サブモジュールをさらに含み、
ここで、前記用語抽出モジュールは、前記用語抽出規則を用いて前記画像認識結果から目標用語を抽出するように構成される
請求項１３に記載の表示装置。
前記コンテンツ取得モジュールは、
前記コンテンツに関連する関連テキストを受信するように構成されるテキストサブモジュールをさらに含み、
ここで、前記用語抽出モジュールは、さらに、前記用語抽出規則を用いて前記関連テキストから複数の候補用語を決定することと、前記コンテンツが前記複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、前記少なくとも一つの候補用語を前記目標用語として抽出するように構成される
請求項１２に記載の表示装置。
前記コンテンツに関連する関連画像を取得し、前記関連画像を認識して、関連画像認識結果を取得するように構成される画像認識サブモジュールをさらに含み、
ここで、前記用語抽出モジュールは、さらに、前記用語抽出規則を用いて前記関連画像認識結果から複数の候補用語を決定し、かつ前記コンテンツが前記複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、前記少なくとも一つの候補用語を前記目標用語として抽出するように構成される
請求項１２に記載の表示装置。
複数の業界用語が記憶されたデータベースを追加し、前記複数の業界用語を複数の候補用語とするように構成されるデータベースモジュールをさらに含み、
ここで、前記用語抽出モジュールは、さらに、前記コンテンツが前記複数の候補用語のうちの少なくとも一つを含むことを決定したことに応答し、前記少なくとも一つの候補用語を前記目標用語として抽出するように構成される
請求項１２に記載の表示装置。
前記表示モジュールは、第一領域に前記コンテンツを表示しかつ第二領域に前記少なくとも一つの目標用語に対する注釈情報を表示するように構成され、
ここで、前記第一領域において、前記少なくとも一つの目標用語の表示視覚効果は前記コンテンツにおける他の部分の表示視覚効果と異なる
請求項１２に記載の表示装置。
前記表示モジュールは、さらに、第一領域に目標言語で前記コンテンツの翻訳結果を表示し、かつ第二領域において前記目標言語で前記少なくとも一つの目標用語に対する注釈情報を表示するように構成される
請求項１９に記載の表示装置。
前記表示モジュールは、さらに、第一領域において目標言語で前記コンテンツの翻訳結果を表示し、かつ第二領域において前記コンテンツのソース言語と前記目標言語との両方で前記少なくとも一つの目標用語に対する注釈情報を表示するように構成される
請求項１９に記載の表示装置。
前記用語抽出規則は、トレーニングされたタグ付けモデル、単語出現頻度分析及びテキストスタイル差異のうちの少なくとも一つに基づくものである
請求項１２～２１のいずれか一項に記載の表示装置。
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリは、前記少なくとも一つのプロセッサにより実行可能な命令を記憶し、前記命令は前記少なくとも一つのプロセッサにより実行されることにより、前記少なくとも一つのプロセッサが請求項１に記載の方法を実行する電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は前記コンピュータに請求項１に記載の方法を実行させる
記憶媒体。
プロセッサにより実行される時に請求項１に記載の方法を実現するコンピュータプログラム。