JP2022028670A

JP2022028670A - 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022028670A
Application number: JP2021172480A
Authority: JP
Inventors: ワン・ゾーシアン; Zexiang Wang
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2020-11-13
Filing date: 2021-10-21
Publication date: 2022-02-16
Also published as: EP3923278A3; EP3923278A2; KR20210138522A; US20220044049A1; CN112164392A; KR20210086582A

Abstract

【課題】表示される認識テキストの決定方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、収集されたユーザによる録音データストリームから認識対象であるデータストリームを決定するステップと、認識対象であるデータストリームをローカルで認識してオフライン認識テキストを得るステップと、認識対象であるデータストリームをオンラインで認識してオンライン認識テキストを得るステップと、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを表示される認識テキストとして決定するステップと、を含む。【選択図】図２

Description

本出願は、コンピュータ技術分野に関し、具体的には、音声認識、自然言語処理などの人工知能技術分野、特に表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

カーマシンとは、車に搭載されているカーインフォテインメント製品の略称であり、機能面では、カーマシンが人と車、車と外界（車と車）との情報通信を実現することができる。

カーマシンがユーザによる録音データに対して音声認識処理を行うときに、音声認識は、オンライン音声認識サーバのみを使用してオンラインで認識するか、ローカル音声認識モデルのみを使用してオフラインで認識することができる。幾つかのカーマシンが録音データの処理・伝送及びビデオフレームの更新の場合に大幅な遅延がある。一般的に、録音データの処理遅延は５００～１０００ｍｓに達することができるが、ビデオフレームの更新遅延は２００～３００ｍｓに達することができる。

本開示の実施例は、表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。

第１の態様によれば、本出願の実施例は、表示される認識テキストの決定方法であって、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するステップと、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るステップと、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るステップと、前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップと、を含む、方法を提供する。

第２の態様によれば、本出願の実施例は、表示される認識テキストの決定装置であって、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するように構成される認識対象であるデータストリーム決定モジュールと、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るように構成されるオフライン認識モジュールと、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るように構成されるオンライン認識モジュールと、前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するように構成される表示される認識テキスト決定モジュールと、を含む、装置を提供する。

第３の態様によれば、本出願の実施例は、電子機器であって、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信して接続されたメモリと、を備え、前記メモリに記憶された少なくとも一つのプロセッサにより実行されるコマンドは、少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサに上記の第１の態様のいずれかに記載の方法を実行させる、電子機器を提供する。

第４の態様によれば、本出願の実施例は、コンピュータコマンドが記録された非一時的コンピュータ可読記録媒体であって、コンピュータコマンドは、コンピュータに上記第１の態様のいずれかに記載の方法を実行させる、記録媒体を提供する。

第５の態様によれば、本出願の実施例は、コンピュータプログラムであって、プロセッサに実行されると、上記第１の態様のいずれかに記載の方法を実行させる、記録媒体を提供する。

本出願の実施例が提供する表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及コンピュータプログラムは、まず収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定した後、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストが得られ、その後、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストが得られ、最後に前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定して、オンライン認識とオフライン認識を並行する案を採用することで、オフライン認識の速度を十分に発揮するだけでなく、オンライン認識の精度も備えているため、認識テキストの呈示が遅いという問題を解決するだけでなく、認識結果も保証される。

なお、この部分に記載の内容は、本開示の実施例のキーポイント又は重要な特徴を特定することも意図していなく、本開示の範囲を限定するために用いられないことを理解されたい。本開示の他の構成は、以下に記載の明細書によって容易に理解される。

本出願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになる。添付の図面は、本出願発明をよりよく理解するために使用され、本出願を限定するものではない。

本開示の実施例を適用可能な例示的なシステムアーキテクチャである。本開示に係る表示される認識テキストの決定方法による一実施例のフローチャートである。本開示に係る表示される認識テキストの決定方法による他の実施例のフローチャートである。本開示に係る表示される認識テキストの決定装置の一実施例の概略構成図である。本出願の実施例に係る表示される認識テキストの決定方法による電子機器のブロック図である。

以下、添付の図面及び実施例と併せて本出願をより詳細に説明する。ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではないことを理解されたい。また、説明の便宜上、添付の図面には発明に関連する部分のみが示されていることに留意されたい。

説明すべきなのは、本出願の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、実施例と合わせて図面を参照しながら本出願を詳細に説明する。

図１に、本出願に係る表示される認識テキストの決定方法又は表示される認識テキストの決定装置を適用できる実施例に係る例示的なシステムアーキテクチャ１００が示される。

図１に示されたように、システムアーキテクチャ１００は、端末機器１０１、ネットワーク１０２、サーバ１０３を含むことができる。ネットワーク１０２は、端末機器１０１とサーバ１０３との間で通信リンクを提供するための媒体である。ネットワーク１０２には、有線又は無線通信回線、光ファイバケーブル等の各種の接続形態が含まれていてもよい。

端末機器１０１は、ネットワーク１０２を介してサーバ１０３とインタラクションをする。端末機器１０１には、ユーザによる録音データストリーム、オフライン認識テキスト等を提供することができ、カーマシン等を含むがこれらに限定されない。

サーバ１０３は、様々なサービスを提供するサーバであってもよく、例えば、サーバ１０３は、端末機器１０１から取得されたユーザによる録音データストリーム、オフライン認識テキスト等のデータに対して解析等の処理を行って、処理結果（例えば、表示される認識テキストの決定）を生成することができる。

説明すべきなのは、サーバ１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０３はハードウェアである場合、複数のサーバで構成される分散型サーバクラスタとして実現されてもよく、また単一のサーバとして実現されてもよい。サーバ１０３は、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール（例えば分散サービスを提供するために用いられる）として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよいが、ここで具体的に限定されない。

説明すべきなのは、本出願の実施例が提供する表示される認識テキストの決定方法は、一般的にサーバ１０３によって実行される。相応的に、表示される認識テキストの決定装置は、一般的にサーバ１０３に設けられる。

なお、図１に示した端末機器、ネットワークとサーバの数はただ一例であることを理解されたい。実際のニーズに応じて、任意の数の端末機器、ネットワークとサーバを備えることができる。

次に、図２を参照する。図２に、本出願に係る表示される認識テキストの決定方法による一実施例のフロー２００が示される。当該方法は、以下のステップを含む。

ステップ２０１において、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定する。

本実施例において図１に示した端末機器１０１は、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定する。

なお、ユーザがマイクロフォンの傍受エリアで話し、ユーザによる音声を傍受して、ユーザによる録音データストリームを生成した後、リンクを介して録音データストリームを端末機器１０１に送信する。端末機器１０１には、特徴抽出の前に、ユーザによる録音データストリームに対してフロントエンド処理を行うことによって、処理されたデータがユーザによる音声の本質的な特性をよりよく反映することができるフロントエンド処理モジュールを含む。

なお、フロントエンド処理には、エンドポイント検出を含むが、これに限定されない。エンドポイント検出とは、ユーザによる録音データストリームにおいて音声信号期間と非音声信号期間を区別して、音声信号の開始点を正確に決定するということです。エンドポイント検出後、後続の処理は音声信号だけに対して行うことができる。

なお、認識対象であるデータストリームは、フロントエンド処理後の音声信号であってもよい。

ステップ２０２において、認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得る。

本実施例において、図１に示した端末機器１０１は、認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得る。

なお、認識対象であるデータストリームをローカル認識エンジンに送信してローカルで認識することができる。次に、ローカル音声モデルにより認識対象であるデータストリームを認識して、オフライン認識テキストを得る。オフライン認識の精度は、ローカル音声モデルの精度に依存する。なお、言語モデルは、大量のテキストを使用してトレーニングされたものであり、特定の言語自身の統計法則を利用して認識精度を向上させることができる。

なお、認識対象であるデータストリームをローカルで認識してオフライン認識テキストが得られた後、ネットワーク１０２を介してオフライン認識テキストをサーバ１０３に送信することができる。

ステップ２０３において、認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得る。

本実施例において、表示される認識テキストの決定方法による実行主体（例えば図１におけるサーバ１０３）は、認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得る。

なお、上記の実行主体は端末機器１０１によりアップロードされた認識対象であるデータストリームを受信した後、認識対象であるデータストリームをオンライン認識エンジンに送信してオンラインで認識することができる。次に、オンライン音声モデルにより、認識対象であるデータストリームを認識して、オンライン認識テキストを得る。なお、オンライン音声モデルには音響モデルと言語モデルを含むことができる。音響モデルは、通常に隠れマルコフ・モデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）を使用する。音響モデルには、ＢＬＳＴＭとディープＣＮＮを含み、異なる音響モデルの融合は、例えば、ＢＬＳＴＭとディープＣＮＮの出力層の融合などにより、認識率の向上にも役立つ。言語モデルには、ＬＳＴＭ、ＲＮＮ、ｎ-ｇｒａｍ（ｎが正の整数である。）を含む。

ステップ２０４において、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定する。

本実施例において、上記の実行主体は、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定する。

本出願に係る実施例は、オフライン認識とオンライン認識を並行する実行モードを採用するため、同時に、上記の実行主体においてオンライン認識テキストとオフライン認識テキストの二つの認識テキストが存在する可能性がある。これに基づいて、上記の実行主体は、オンライン認識テキストとオフライン認識テキストはどちらが表示機器での表示に適しているかを仲裁して決定できるため、ユーザがより良い体験を得ることができる。具体的に、上記の実行主体に仲裁機関を設置して、オフライン認識テキストとオンライン認識テキストを仲裁機関に返送した後、仲裁機関が事前に設定された仲裁規則に基づいて判断して、最終にどの認識テキストを表示機器で表示される認識テキストとして選択することができる。

なお、仲裁規則は、二つの認識テキストの音声認識精度がいずれも精度の閾値に達すると、認識テキストの呈示（即ち、表示機器での表示）速度が優先され、それ以外の場合、認識テキストの精度が優先される（即ち、音声認識精度の高い認識テキストを優先して表示する）ということです。

なお、仲裁規則は、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定することを含み得る。例えば、オンライン認識テキストとオフライン認識テキストの類似度が１００％の場合、オフライン認識テキストを、ユーザの意図を特徴付ける認識テキストとして決定する。別の例として、オンライン認識テキストとオフライン認識テキストの類似度が０％の場合、オンライン認識テキストを、ユーザの意図を特徴付ける認識テキストとして決定する。

本出願に上記の実施例が提供する表示される認識テキストの決定方法は、音声認識が融合して認識する場合、オンライン認識のみを使用できるか、オフライン認識のみを使用できるが、オンライン認識とオフライン認識を同時に並行して使用することができない態様を廃棄した。オンライン認識とオフライン認識を並行する案を採用することで、オフライン認識の速度を十分に発揮するだけでなく、オンライン認識の精度も備えているため、認識テキストの呈示が遅いという問題を解決するだけでなく、認識効果も保証される。

本実施例の幾つかの選択可能な実現形態において、上記のステップ２０２には、表示機器で前記オフライン認識テキストを呈するステップを更に含み、上記のステップ２０４には、オフライン認識テキストがオンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するステップと、オフライン認識テキストがオンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更するステップとを含む。

なお、表示機器が端末機器１０１に集積することができる。なお、上記の実行主体が表示される認識テキストを決定した後、端末機器１０１における表示機器に出力して呈することができる。上記の実行主体がオフライン認識テキストを表示される認識テキストとして決定する場合、表示機器で呈されたオフライン認識テキストをそのまま呈することができる。上記の実行主体がオンライン認識テキストを表示される認識テキストとして決定する場合、表示機器で呈されたオフライン認識テキストをオンライン認識テキストに変更することができる。

なお、オフライン認識テキストがオンライン認識テキストを含む場合、オンライン認識テキストとオフライン認識テキストと同じであっても良く、オンライン認識テキストがオフライン認識テキストにおける単語または段落であってもよい。例えば、オンライン認識テキストが「音楽再生」である場合、オフライン認識テキストが「携帯電話で音楽を再生したい」である。なお、オフライン認識テキストがオンライン認識テキストを含む場合、オンライン認識テキストにおいて文字または単語がオフライン認識テキストに散在して分散してもよい。例えば、オンライン認識テキストが「音楽再生」である場合、オフライン認識テキストが「携帯電話でダイナミックな音楽を再生したい」である。

一般的に、オンライン認識テキストの音声認識精度はいずれも精度の閾値よりも高くなる。オフライン認識テキストがオンライン認識テキストを含む場合、オフライン認識テキストの精度も精度の閾値よりも高くなる。従って、仲裁規則において「二つの認識テキストの音声認識精度がいずれも精度の閾値に達すると、認識テキストの呈示（即ち、表示機器での表示）速度が優先される」ことに基づいて、表示機器でより速く呈する認識テキストを、表示される認識テキストとして選択することができる。上記のステップ２０２を実行した後、表示機器でオフライン認識テキストを呈したので、表示機器で表示されたオフライン認識テキストをそのまま呈すればよい。

なお、オフライン認識テキストがオンライン認識テキストを含む場合、オンライン認識テキストがオフライン認識テキストにおける単語または段落であり、オンライン認識テキストの長さがオフライン認識テキストの長さ以下であってもよいことを選択可能である。

本実施例の幾つかの選択可能な実現形態において、上記のステップ２０４には、オフライン認識テキストとオンライン認識テキストの類似度が所定の閾値未満である場合に応答して、オンライン認識テキストを、表示される認識テキストとして決定するステップと、前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するステップを含む。

一般的に、オンライン認識テキストの音声認識精度はいずれも精度閾値よりも高くなる。オフライン認識テキストとオンライン認識テキストの類似度を判断することにより、オフライン認識テキストの音声認識精度が精度の閾値よりも高いかどうかを判断することができる。なお、オフライン認識テキストとオンライン認識テキストの類似度の閾値を事前に設定することができ、当該類似度の閾値はオフライン認識テキストの音声認識精度が精度の閾値よりも高いかどうかを特徴付けるためのものである。例えば、精度の閾値が９０％である場合、オンライン認識テキストの音声認識精度が１００％であることを黙認し、オフライン認識テキストとオンライン認識テキストの類似度の閾値を９０％に設定することができる。

なお、オフライン認識テキストとオンライン認識テキストの類似度が所定の閾値未満である場合、オフライン認識テキストの精度が精度の閾値に達しない。上記の仲裁規則によれば、認識テキストの精度が優先され、即ち、音声認識精度がより高い認識テキストーオンライン認識テキストを優先して呈する。オフライン認識テキストとオンライン認識テキストの類似度が所定の閾値以上である場合、オフライン認識テキストの精度が精度の閾値に達する。上記の仲裁規則によれば、認識テキストの速度が優先され、即ち、呈示の速度がより速い認識テキストーオフライン認識テキストを優先して呈する。

さらに図３を参照し、表示される認識テキストの決定方法による一実施例のフローチャートが示される。当該方法は、以下のステップを含む。

ステップ３０１において、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定する。

ステップ３０２において、認識対象であるデータストリームをローカルで認識して、オフライン認識テキストが得られ、表示機器で前記オフライン認識テキストを呈する。

ステップ３０３において、認識対象であるデータストリームをオンラインで認識し、オンライン認識テキストを得る。

ステップ３０４において、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定する。

ステップ３０５において、オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈する。

本実施例において、図１に示した端末機器１０１は、オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈することができる。

なお、ネットワーク環境の悪さ、ネットワークの切断、オンライン音声認識サーバの故障などの異常な理由により、オンライン認識テキストが返送されない可能性がある。異常な理由でオンライン認識テキストが返送されない場合、表示されたオフライン認識テキストを、表示される認識テキストとして決定する、異常処理メカニズムが提供される。

本実施例の幾つかの選択可能な実現形態において、上記のステップ２０１には、前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるステップを含む。

なお、前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションを含む。なお、ノイズリダクションのフローは、バックグラウンドノイズのスペクトル特性を安定させ、振幅は1つまたは複数の周波数スペクトルで非常に安定しており、例えば、バックグラウンドの小さな部分がバックグラウンドノイズである場合、最初のバックグラウンドノイズからグループ分けして、フーリエ変換して、これらのグループの平均値を求めて、ノイズスペクトルが得られる。ノイズリダクションのプロセスは、ノイズの多い音声を逆補償してから、ノイズが低減された音声を取得することです。

なお、エコーキャンセレーションは、ダブルトーク検出（ＤｏｕｂｌｅｔａｌｋＤｅｔｅｃｔｉｏｎ）と遅延推定（ＤｅｌａｙＥｓｔｉｍａｔｉｏｎ）を含み、インテリジェントターミナルのエコーキャンセレーションモジュールについて、現在のモード（ニアトークモード、ファートークモード、ダブルトークモード）を判断することによって、様々な方法で濾波器ｗ１とｗ２を更新して、遠端干渉を除去する。このうえで、ポストフィルタリングアルゴリズム（Ｐｏｓｔ°Ｆｉｌｔｅｒｉｎｇ°Ａｌｇｏｒｉｔｈｍ）により残留ノイズの干渉を排除する。一般的に音響エコーと混合エコーの２種類に分けられる。音声通話には、音声圧縮技術とバッチ処理の遅延によりバックエコーが発生するので、通常、通話品質を向上させるために、バックエコーキャンセレーションが必要である。バックエコーキャンセラーが受信経路に遠端からの話声を監視測定して、バックエコーの推定値を計算してから、送信経路からこの推定値を差し引いて、バックエコーが除去され、近端の話声のみが遠端に送信される。

なお、音響学では、遅延時間が約５０ｍｓ以上に達する反射波がエコーとして呼ばれ、残りの反射波による影響が残響として呼ばれ、初期残響と後期残響に分けられる。早期残響成分が音声の明瞭度を向上させるのに役立つため、音声の残響除去であるタスクにおいて、後期残響の抑制についてより注目される。残響キャンセレーション方法は、主にビームフォーミング法、逆濾波法、音声強化法、ディープラーニング法に基づく四つのカテゴリがある。

収集された録音データストリームを前処理することによって、音声認識の精度を向上させることができる。

本実施例の幾つかの選択可能な実現形態において、オフライン認識テキストの長さが事前に設定された閾値以下である。例えば、オフライン認識テキストの呈示速度を確保するために、オフライン認識テキストの戻り文字を最大１２文字に制限する。

さらに図４を参照すると、上記の図面に示す方法の実現形態として、本出願は、表示される認識テキストを決定する一実施例を提供している。当該装置実施例は図２に示す方法実施例と対応し、当該装置は、様々な各種電子機器に適用することができる。

図４に示されたように、本実施例に係る表示される認識テキストの決定装置４００は、認識対象であるデータストリーム決定モジュール４０１、オフライン認識モジュール４０２、オンライン認識モジュール４０３、表示される認識テキスト決定モジュール４０４を含むことができる。なお、前記認識対象であるデータストリーム決定モジュール４０１は、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するように構成され、前記オフライン認識モジュール４０２は、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るように構成され、前記オンライン認識モジュール４０３は、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るように構成され、前記の表示される認識テキスト決定モジュール４０４は、前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するように構成される。

本実施例において、表示される認識テキストの決定装置４００において、認識対象であるデータストリーム決定モジュール４０１、オフライン認識モジュール４０２、オンライン認識モジュール４０３、表示される認識テキスト決定モジュール４０４の具体的な処理及びそれらによる技術効果は、図２と対応する実施例においてステップ２０１～２０５の関連する説明をそれぞれ参照することができるので、ここでは説明を省略する。

本実施例の幾つかの選択可能な実現形態において、前記オフライン認識モジュールは、表示機器で前記オフライン認識テキストを呈するように構成される表示モジュールを更に含む。前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストが前記オンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される。

本実施例の幾つかの選択可能な実現形態において、前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストが前記オンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更することができるように構成される。

本実施例の幾つかの選択可能な実現形態において、前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値未満である場合に応答して、前記オンライン認識テキストを、表示される認識テキストとして決定するように構成される。

本実施例の幾つかの選択可能な実現形態において、前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するように構成される。本実施例の幾つかの選択可能な実現形態において、前記オンライン認識テキストの長さが前記オフライン認識テキストの長さ以下である。

本実施例の幾つかの選択可能な実現形態において、前記装置は、前記オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される異常処理モジュールをさらに含む。

本実施例の幾つかの選択可能な実現形態において、前記認識対象であるデータストリーム決定モジュールは、さらに、前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるように構成される。

本実施例の幾つかの選択可能な実現形態において、前記前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションのいずれかを含む。

本実施例の幾つかの選択可能な実現形態において、前記オフライン認識テキストの長さが事前に設定された閾値以下である。

図５に示されたように、本出願の実施例に係る表示される認識テキストの決定方法による電子機器のブロック図が示される。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなど、様々な形態のデジタルコンピュータを示すことを目的としている。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピュータデバイスなど、様々な形式のモバイルデバイスを表すこともできる。本明細書に示す部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書に記載及び／又は要求とされる本出願の実現を制限することを意図するものではない。

図５に示されたように、当該電子機器は、１つ又は複数のプロセッサ５０１、メモリ５０２、及び各部品を接続するための、高速インタフェースと低速インタフェースを含むインタフェースを含む。各部品は、異なるバスにより相互に接続しており、共通のメインボードに設置してもよく、必要に応じて他の方法により設置してもよい。プロセッサは、電子機器内に実行されたコマンドを処理することができ、前記コマンドは、メモリに記憶されたコマンド或いはメモリにある外部入力/出力装置（例えば、インタフェースに結合された表示機器）にＧＵＩのグラフィック情報を表示させるためのコマンドを含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリと複数のメモリとともに使用することができる。同様、複数の電子機器と接続して、各機器に幾つかの必要とする操作（例えば、サーバアレイ、ブレードサーバのグループ、或いはマルチプロセッサシステム）を提供することができる。図５はプロセッサ５０１を例として示されている。

メモリ５０２は、本出願が提供する非一時的コンピュータ可読記録媒体である。そのうち、前記メモリに記憶された少なくとも一つのプロセッサによって実行され得るコマンドによって、前記の少なくとも一つのプロセッサに本出願が提供する表示される認識テキストの決定方法を実行させる。本出願に係る非一時的コンピュータ可読記録媒体にコンピュータコマンドが記憶され、当該コンピュータコマンドはコンピュータに本出願が提供する表示される認識テキストの決定方法。

メモリ５０２は、非一時的コンピュータ可読記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いられ、例えば、本出願の実施例に係る表示される認識テキストの決定方法と対応するプログラムコマンド/モジュール（例えば、図４に示す認識対象であるデータストリーム決定モジュール４０１、オフライン認識モジュール４０２、オンライン認識モジュール４０３、表示される認識テキスト決定モジュール４０４）。プロセッサ５０１は、メモリ５０２に記憶された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することによって、サーバにおける様々な功能アプリケーション及びデータ処理を実行する。よって、上記の方法実施例に係る表示される認識テキストの決定方法を実現する。

メモリ５０２は、記憶プログラム領域と記憶データ領域を含んでも良く、前記記憶プログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とするアプリケーションプログラムを記憶することができ、前記記憶データ領域は、表示される認識テキストの決定方法的電子機器の使用によるデータ等を記憶することができる。また、メモリ５０２は、高速ランダムアクセスメモリを含んでも良く、非一時的メモリを含んでも良く、例えば少なくとも一つ磁気ディスク記憶装置、フラッシュ記憶装置、又は他の非一時的ソリッドステート記憶装置であってもよい。幾つかの実施例において、メモリ５０２はプロセッサ５０１に対して遠隔設定されたメモリを選択しても良く、これらの遠隔メモリは、ネットワークを介して表示される認識テキストの決定方法による電子機器に接続することができる。前記ネットワークの一例としてインターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。

表示される認識テキストの決定方法による電子機器は、入力装置５０３、出力装置５０４をさらに含んでも良い。プロセッサ５０１、メモリ５０２、入力装置５０３、出力装置５０４は、バスまたは他の方法で接続することができる。図５では、バス接続を例として示されている。

入力装置５０３は、入力された数値、文字情報を受信することができ、表示される認識テキストの決定方法による電子機器のユーザ設定及び機能制御と関連するキー信号入力を生成することもでき、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置であってもよい。出力装置５０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）等を含むことができる。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含むがこれらに限定されていない。幾つかの実施形態において、表示機器はタッチスクリーンであってもよい。

ここで記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実行されることを含み、当該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラム可能なプロセッサは、専用または通用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータとコマンドを受信し、データとコマンドを当該記憶システム、当該少なくとも一つの入力装置、当該少なくとも一つの出力装置に転送してもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）には、プログラム可能なプロセッサの機械語コマンドが含まれ、高レベルのプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブラ/機械語によりこれらのコンピュータプログラムを実行する。本明細書で使用された、「機械読み取り可能な記録媒体」と「コンピュータ可読記録媒体」という用語は、機械コマンド及び/又はデータをプログラム可能なプロセッサのいずれかのコンピュータプログラム製品、機器、及び/又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））に提供するためのものを指し、機器コマンドを機械読み取り可能な信号として受信するための機器読み取り可能媒体を含む。「機械読み取り可能な信号」という用語は、机器コマンド及び/又はデータをプログラム可能なプロセッサに提供するためのいずれかの信号である。

ユーザとのインタラクションを提供するために、コンピュータにここで記載のシステムと技術を実行することができる。当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）或いはＬＣＤ（液晶ディスプレイ）モニター）と、ユーザが当該キーボードと当該ポインティングデバイスにより入力をコンピュータに提供するキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）を備える。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってよく、任意の形式（音響入力、音声入力、または触覚入力を含む）ユーザからの入力を受け取ることができる。

ここで記載のシステムと技術を、バックエンド部品を含むコンピュータシステム（例えば、データサーバ）、或いは中間部品を含むコンピュータシステム（例えば、アプリケーションサーバ）、或いはフロントエンド部品を含むコンピュータシステム（例えば、グラフィカルユーザーインターフェース或いはネットワークブラウザを有するユーザコンピュータは、ユーザが当該グラフィカルユーザーインターフェース或いは当該ネットワークブラウザによりここで記載のシステムと技術の実施形態とインタラクションする）、或いはこのバックエンド部品、中間部品、或いはフロントエンド部品の任意の組み合わせのコンピュータシステムで実行してもよい。任意の形式或いは媒体によるデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を相互に接続することができる。通信ネットワークの例として、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）とインターネットを含む。

コンピュータシステムには、クライアントとサーバを含んでも良い。クライアントとサーバは、通常に互いに遠く離れており、通常に通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータで実行された、お互いにクライアントとサーバの関係を持つコンピュータプログラムによって生成される。本出願の実施例の技術案によれば、まず、処理対象ビデオフレームのコンテンツ情報を取得することによって、処理対象ビデオフレームの理解に有利である。その後、前記コンテンツ情報に基づいてテキスト記述情報を構築することによって、情報によるビデオの記述が実現される。そして、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られることによって、ビデオ解説に対する適切性を向上する。最後に前記解説テキスト情報をオーディオ情報に変更する。本出願はビデオに対する音声解説を実現し、ビデオの解説効率を向上する。

本出願の技術案に従って、まず、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定してから、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストが得られた後に、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストが得られ、最後に前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定して、オンライン認識とオフライン認識を並行する案を採用することで、オフライン認識の速度を十分に発揮するだけでなく、オンライン認識の精度も備えているため、認識テキストの呈示が遅いという問題を解決するだけでなく、認識結果も保証される。

人工知能は、人々の特定の思惟プロセスと知能行為（学習、推論、思考、計画など）をシミュレートするためのコンピュータを研究する学科であり、ハードウェア面の技術とソフトウェア面の技術の両方がある。一般的に、人工知能ハードウェア技術にはセンサー、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理などの技術が含まれる。人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術、機械学習/深層学習、ビッグデータ処理技術、及び知識図鑑技術などの面が含まれる。

なお、上記に示す様々な形式のフロー、並べ替え、追加又は削除のステップを利用することができることを理解されたい。例えば、本出願に記載の各ステップは、本出願に開示された技術的解決策の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行することができ、これは本明細書に限定されない。

上記のした具体的な実施形態は、本出願の範囲を制限するものではない。当業者であれば、設計要件および他の要因に応じて様々な修正、組み合わせ、サブコンビネーションおよび置き換えを行うことができることを理解されたい。本出願の主旨と原則の範囲内で行われた変更、同等の置き換え、改良は、いずれも本出願の範囲内に含まれるものとする。

Claims

表示される認識テキストの決定方法であって、
収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するステップと、
前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るステップと、
前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るステップと、
前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップと、
を含む、方法。
上記した前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るステップは、
表示機器で前記オフライン認識テキストを呈するステップを更に含み、
上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
前記オフライン認識テキストが前記オンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するステップを含む、
請求項１に記載の方法。
前記オンライン認識テキストの長さが前記オフライン認識テキストの長さ以下である、
請求項２に記載の方法。
上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
前記オフライン認識テキストが前記オンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更するステップを含む、
請求項２に記載の方法。
上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値未満である場合に応答して、前記オンライン認識テキストを、表示される認識テキストとして決定するステップを含む、
請求項１に記載の方法。
上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するステップを含む、
請求項５に記載の方法。
前記オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈する、
請求項２に記載の装置。
上記した収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するステップは、
前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるステップを含む、
請求項１に記載の方法。
前記前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションのいずれかを含む、
請求項８に記載の方法。
前記オフライン認識テキストの長さが事前に設定された閾値以下である、
請求項１～９のいずれか一項に記載の方法。
表示される認識テキストの決定装置であって、
収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するように構成される認識対象であるデータストリーム決定モジュールと、
前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るように構成されるオフライン認識モジュールと、
前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るように構成されるオンライン認識モジュールと、
前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するように構成される表示される認識テキスト決定モジュールと、
を含む、装置。
前記オフライン認識モジュールは、
表示機器で前記オフライン認識テキストを呈するように構成される表示モジュールを更に含み、
前記の表示される認識テキスト決定モジュールは、さらに、
前記オフライン認識テキストが前記オンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される、
請求項１１に記載の装置。
前記オンライン認識テキストの長さが前記オフライン認識テキストの長さ以下である、
請求項１２に記載の装置。
前記の表示される認識テキスト決定モジュールは、さらに、
前記オフライン認識テキストが前記オンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更することができるように構成される、
請求項１２に記載の装置。
前記の表示される認識テキスト決定モジュールは、さらに、
前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値未満である場合に応答して、前記オンライン認識テキストを、表示される認識テキストとして決定するように構成される、
請求項１１に記載の装置。
前記の表示される認識テキスト決定モジュールは、さらに、
前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するように構成される、
請求項１５に記載の装置。
前記オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される異常処理モジュールをさらに含む、
請求項１２に記載の装置。
前記認識対象であるデータストリーム決定モジュールは、さらに、
前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるように構成される、
請求項１１に記載の装置。
前記前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションのいずれかを含む、
請求項１８に記載の装置。
前記オフライン認識テキストの長さが事前に設定された閾値以下である、
請求項１１～１９のいずれか１項に記載の装置。
電子機器であって、
少なくとも一つのプロセッサと、
少なくとも一つのプロセッサと通信して接続されたメモリと、を備え、
前記メモリに記憶された前記少なくとも一つのプロセッサにより実行されるコマンドは、少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサに請求項１～１０のいずれか１項に記載の方法を実行させる、電子機器。
コンピュータプログラムが記録された非一時的コンピュータ可読記録媒体であって、
前記コンピュータコマンドは、コンピュータに請求項１～１０のいずれか１項に記載の方法を実行させるコンピュータプログラム。
コンピュータプログラムであって、
前記コンピュータコマンドは、プロセッサにより実行されると、請求項１～１０のいずれか１項に記載の方法を実行させるコンピュータプログラム。