JP2022028670A - 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022028670A
JP2022028670A JP2021172480A JP2021172480A JP2022028670A JP 2022028670 A JP2022028670 A JP 2022028670A JP 2021172480 A JP2021172480 A JP 2021172480A JP 2021172480 A JP2021172480 A JP 2021172480A JP 2022028670 A JP2022028670 A JP 2022028670A
Authority
JP
Japan
Prior art keywords
recognition text
offline
online
text
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021172480A
Other languages
English (en)
Inventor
ワン・ゾーシアン
Zexiang Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022028670A publication Critical patent/JP2022028670A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

【課題】表示される認識テキストの決定方法、装置、電子機器及び記憶媒体を提供する。【解決手段】方法は、収集されたユーザによる録音データストリームから認識対象であるデータストリームを決定するステップと、認識対象であるデータストリームをローカルで認識してオフライン認識テキストを得るステップと、認識対象であるデータストリームをオンラインで認識してオンライン認識テキストを得るステップと、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを表示される認識テキストとして決定するステップと、を含む。【選択図】図2

Description

本出願は、コンピュータ技術分野に関し、具体的には、音声認識、自然言語処理などの人工知能技術分野、特に表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
カーマシンとは、車に搭載されているカーインフォテインメント製品の略称であり、機能面では、カーマシンが人と車、車と外界(車と車)との情報通信を実現することができる。
カーマシンがユーザによる録音データに対して音声認識処理を行うときに、音声認識は、オンライン音声認識サーバのみを使用してオンラインで認識するか、ローカル音声認識モデルのみを使用してオフラインで認識することができる。幾つかのカーマシンが録音データの処理・伝送及びビデオフレームの更新の場合に大幅な遅延がある。一般的に、録音データの処理遅延は500~1000msに達することができるが、ビデオフレームの更新遅延は200~300msに達することができる。
本開示の実施例は、表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。
第1の態様によれば、本出願の実施例は、表示される認識テキストの決定方法であって、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するステップと、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るステップと、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るステップと、前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップと、を含む、方法を提供する。
第2の態様によれば、本出願の実施例は、表示される認識テキストの決定装置であって、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するように構成される認識対象であるデータストリーム決定モジュールと、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るように構成されるオフライン認識モジュールと、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るように構成されるオンライン認識モジュールと、前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するように構成される表示される認識テキスト決定モジュールと、を含む、装置を提供する。
第3の態様によれば、本出願の実施例は、電子機器であって、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信して接続されたメモリと、を備え、前記メモリに記憶された少なくとも一つのプロセッサにより実行されるコマンドは、少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサに上記の第1の態様のいずれかに記載の方法を実行させる、電子機器を提供する。
第4の態様によれば、本出願の実施例は、コンピュータコマンドが記録された非一時的コンピュータ可読記録媒体であって、コンピュータコマンドは、コンピュータに上記第1の態様のいずれかに記載の方法を実行させる、記録媒体を提供する。
第5の態様によれば、本出願の実施例は、コンピュータプログラムであって、プロセッサに実行されると、上記第1の態様のいずれかに記載の方法を実行させる、記録媒体を提供する。
本出願の実施例が提供する表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及コンピュータプログラムは、まず収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定した後、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストが得られ、その後、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストが得られ、最後に前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定して、オンライン認識とオフライン認識を並行する案を採用することで、オフライン認識の速度を十分に発揮するだけでなく、オンライン認識の精度も備えているため、認識テキストの呈示が遅いという問題を解決するだけでなく、認識結果も保証される。
なお、この部分に記載の内容は、本開示の実施例のキーポイント又は重要な特徴を特定することも意図していなく、本開示の範囲を限定するために用いられないことを理解されたい。本開示の他の構成は、以下に記載の明細書によって容易に理解される。
本出願の他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになる。添付の図面は、本出願発明をよりよく理解するために使用され、本出願を限定するものではない。
本開示の実施例を適用可能な例示的なシステムアーキテクチャである。 本開示に係る表示される認識テキストの決定方法による一実施例のフローチャートである。 本開示に係る表示される認識テキストの決定方法による他の実施例のフローチャートである。 本開示に係る表示される認識テキストの決定装置の一実施例の概略構成図である。 本出願の実施例に係る表示される認識テキストの決定方法による電子機器のブロック図である。
以下、添付の図面及び実施例と併せて本出願をより詳細に説明する。ここで説明する具体的な実施例は、関連する発明を説明するためのものに過ぎず、当該発明を限定するものではないことを理解されたい。また、説明の便宜上、添付の図面には発明に関連する部分のみが示されていることに留意されたい。
説明すべきなのは、本出願の実施例及び実施例における特徴は、矛盾を生じない限り、相互に組み合わせることができる。以下、実施例と合わせて図面を参照しながら本出願を詳細に説明する。
図1に、本出願に係る表示される認識テキストの決定方法又は表示される認識テキストの決定装置を適用できる実施例に係る例示的なシステムアーキテクチャ100が示される。
図1に示されたように、システムアーキテクチャ100は、端末機器101、ネットワーク102、サーバ103を含むことができる。ネットワーク102は、端末機器101とサーバ103との間で通信リンクを提供するための媒体である。ネットワーク102には、有線又は無線通信回線、光ファイバケーブル等の各種の接続形態が含まれていてもよい。
端末機器101は、ネットワーク102を介してサーバ103とインタラクションをする。端末機器101には、ユーザによる録音データストリーム、オフライン認識テキスト等を提供することができ、カーマシン等を含むがこれらに限定されない。
サーバ103は、様々なサービスを提供するサーバであってもよく、例えば、サーバ103は、端末機器101から取得されたユーザによる録音データストリーム、オフライン認識テキスト等のデータに対して解析等の処理を行って、処理結果(例えば、表示される認識テキストの決定)を生成することができる。
説明すべきなのは、サーバ103は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ103はハードウェアである場合、複数のサーバで構成される分散型サーバクラスタとして実現されてもよく、また単一のサーバとして実現されてもよい。サーバ103は、ソフトウェアである場合、複数のソフトウェア又はソフトウェアモジュール(例えば分散サービスを提供するために用いられる)として実現されてもよく、単一のソフトウェア又はソフトウェアモジュールとして実現されてもよいが、ここで具体的に限定されない。
説明すべきなのは、本出願の実施例が提供する表示される認識テキストの決定方法は、一般的にサーバ103によって実行される。相応的に、表示される認識テキストの決定装置は、一般的にサーバ103に設けられる。
なお、図1に示した端末機器、ネットワークとサーバの数はただ一例であることを理解されたい。実際のニーズに応じて、任意の数の端末機器、ネットワークとサーバを備えることができる。
次に、図2を参照する。図2に、本出願に係る表示される認識テキストの決定方法による一実施例のフロー200が示される。当該方法は、以下のステップを含む。
ステップ201において、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定する。
本実施例において図1に示した端末機器101は、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定する。
なお、ユーザがマイクロフォンの傍受エリアで話し、ユーザによる音声を傍受して、ユーザによる録音データストリームを生成した後、リンクを介して録音データストリームを端末機器101に送信する。端末機器101には、特徴抽出の前に、ユーザによる録音データストリームに対してフロントエンド処理を行うことによって、処理されたデータがユーザによる音声の本質的な特性をよりよく反映することができるフロントエンド処理モジュールを含む。
なお、フロントエンド処理には、エンドポイント検出を含むが、これに限定されない。エンドポイント検出とは、ユーザによる録音データストリームにおいて音声信号期間と非音声信号期間を区別して、音声信号の開始点を正確に決定するということです。エンドポイント検出後、後続の処理は音声信号だけに対して行うことができる。
なお、認識対象であるデータストリームは、フロントエンド処理後の音声信号であってもよい。
ステップ202において、認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得る。
本実施例において、図1に示した端末機器101は、認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得る。
なお、認識対象であるデータストリームをローカル認識エンジンに送信してローカルで認識することができる。次に、ローカル音声モデルにより認識対象であるデータストリームを認識して、オフライン認識テキストを得る。オフライン認識の精度は、ローカル音声モデルの精度に依存する。なお、言語モデルは、大量のテキストを使用してトレーニングされたものであり、特定の言語自身の統計法則を利用して認識精度を向上させることができる。
なお、認識対象であるデータストリームをローカルで認識してオフライン認識テキストが得られた後、ネットワーク102を介してオフライン認識テキストをサーバ103に送信することができる。
ステップ203において、認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得る。
本実施例において、表示される認識テキストの決定方法による実行主体(例えば図1におけるサーバ103)は、認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得る。
なお、上記の実行主体は端末機器101によりアップロードされた認識対象であるデータストリームを受信した後、認識対象であるデータストリームをオンライン認識エンジンに送信してオンラインで認識することができる。次に、オンライン音声モデルにより、認識対象であるデータストリームを認識して、オンライン認識テキストを得る。なお、オンライン音声モデルには音響モデルと言語モデルを含むことができる。音響モデルは、通常に隠れマルコフ・モデル(Hidden Markov Model、HMM)を使用する。音響モデルには、BLSTMとディープCNNを含み、異なる音響モデルの融合は、例えば、BLSTMとディープCNNの出力層の融合などにより、認識率の向上にも役立つ。言語モデルには、LSTM、RNN、n-gram(nが正の整数である。)を含む。
ステップ204において、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定する。
本実施例において、上記の実行主体は、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定する。
本出願に係る実施例は、オフライン認識とオンライン認識を並行する実行モードを採用するため、同時に、上記の実行主体においてオンライン認識テキストとオフライン認識テキストの二つの認識テキストが存在する可能性がある。これに基づいて、上記の実行主体は、オンライン認識テキストとオフライン認識テキストはどちらが表示機器での表示に適しているかを仲裁して決定できるため、ユーザがより良い体験を得ることができる。具体的に、上記の実行主体に仲裁機関を設置して、オフライン認識テキストとオンライン認識テキストを仲裁機関に返送した後、仲裁機関が事前に設定された仲裁規則に基づいて判断して、最終にどの認識テキストを表示機器で表示される認識テキストとして選択することができる。
なお、仲裁規則は、二つの認識テキストの音声認識精度がいずれも精度の閾値に達すると、認識テキストの呈示(即ち、表示機器での表示)速度が優先され、それ以外の場合、認識テキストの精度が優先される(即ち、音声認識精度の高い認識テキストを優先して表示する)ということです。
なお、仲裁規則は、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定することを含み得る。例えば、オンライン認識テキストとオフライン認識テキストの類似度が100%の場合、オフライン認識テキストを、ユーザの意図を特徴付ける認識テキストとして決定する。別の例として、オンライン認識テキストとオフライン認識テキストの類似度が0%の場合、オンライン認識テキストを、ユーザの意図を特徴付ける認識テキストとして決定する。
本出願に上記の実施例が提供する表示される認識テキストの決定方法は、音声認識が融合して認識する場合、オンライン認識のみを使用できるか、オフライン認識のみを使用できるが、オンライン認識とオフライン認識を同時に並行して使用することができない態様を廃棄した。オンライン認識とオフライン認識を並行する案を採用することで、オフライン認識の速度を十分に発揮するだけでなく、オンライン認識の精度も備えているため、認識テキストの呈示が遅いという問題を解決するだけでなく、認識効果も保証される。
本実施例の幾つかの選択可能な実現形態において、上記のステップ202には、表示機器で前記オフライン認識テキストを呈するステップを更に含み、上記のステップ204には、オフライン認識テキストがオンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するステップと、オフライン認識テキストがオンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更するステップとを含む。
なお、表示機器が端末機器101に集積することができる。なお、上記の実行主体が表示される認識テキストを決定した後、端末機器101における表示機器に出力して呈することができる。上記の実行主体がオフライン認識テキストを表示される認識テキストとして決定する場合、表示機器で呈されたオフライン認識テキストをそのまま呈することができる。上記の実行主体がオンライン認識テキストを表示される認識テキストとして決定する場合、表示機器で呈されたオフライン認識テキストをオンライン認識テキストに変更することができる。
なお、オフライン認識テキストがオンライン認識テキストを含む場合、オンライン認識テキストとオフライン認識テキストと同じであっても良く、オンライン認識テキストがオフライン認識テキストにおける単語または段落であってもよい。例えば、オンライン認識テキストが「音楽再生」である場合、オフライン認識テキストが「携帯電話で音楽を再生したい」である。なお、オフライン認識テキストがオンライン認識テキストを含む場合、オンライン認識テキストにおいて文字または単語がオフライン認識テキストに散在して分散してもよい。例えば、オンライン認識テキストが「音楽再生」である場合、オフライン認識テキストが「携帯電話でダイナミックな音楽を再生したい」である。
一般的に、オンライン認識テキストの音声認識精度はいずれも精度の閾値よりも高くなる。オフライン認識テキストがオンライン認識テキストを含む場合、オフライン認識テキストの精度も精度の閾値よりも高くなる。従って、仲裁規則において「二つの認識テキストの音声認識精度がいずれも精度の閾値に達すると、認識テキストの呈示(即ち、表示機器での表示)速度が優先される」ことに基づいて、表示機器でより速く呈する認識テキストを、表示される認識テキストとして選択することができる。上記のステップ202を実行した後、表示機器でオフライン認識テキストを呈したので、表示機器で表示されたオフライン認識テキストをそのまま呈すればよい。
なお、オフライン認識テキストがオンライン認識テキストを含む場合、オンライン認識テキストがオフライン認識テキストにおける単語または段落であり、オンライン認識テキストの長さがオフライン認識テキストの長さ以下であってもよいことを選択可能である。
本実施例の幾つかの選択可能な実現形態において、上記のステップ204には、オフライン認識テキストとオンライン認識テキストの類似度が所定の閾値未満である場合に応答して、オンライン認識テキストを、表示される認識テキストとして決定するステップと、前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するステップを含む。
一般的に、オンライン認識テキストの音声認識精度はいずれも精度閾値よりも高くなる。オフライン認識テキストとオンライン認識テキストの類似度を判断することにより、オフライン認識テキストの音声認識精度が精度の閾値よりも高いかどうかを判断することができる。なお、オフライン認識テキストとオンライン認識テキストの類似度の閾値を事前に設定することができ、当該類似度の閾値はオフライン認識テキストの音声認識精度が精度の閾値よりも高いかどうかを特徴付けるためのものである。例えば、精度の閾値が90%である場合、オンライン認識テキストの音声認識精度が100%であることを黙認し、オフライン認識テキストとオンライン認識テキストの類似度の閾値を90%に設定することができる。
なお、オフライン認識テキストとオンライン認識テキストの類似度が所定の閾値未満である場合、オフライン認識テキストの精度が精度の閾値に達しない。上記の仲裁規則によれば、認識テキストの精度が優先され、即ち、音声認識精度がより高い認識テキストーオンライン認識テキストを優先して呈する。オフライン認識テキストとオンライン認識テキストの類似度が所定の閾値以上である場合、オフライン認識テキストの精度が精度の閾値に達する。上記の仲裁規則によれば、認識テキストの速度が優先され、即ち、呈示の速度がより速い認識テキストーオフライン認識テキストを優先して呈する。
さらに図3を参照し、表示される認識テキストの決定方法による一実施例のフローチャートが示される。当該方法は、以下のステップを含む。
ステップ301において、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定する。
ステップ302において、認識対象であるデータストリームをローカルで認識して、オフライン認識テキストが得られ、表示機器で前記オフライン認識テキストを呈する。
ステップ303において、認識対象であるデータストリームをオンラインで認識し、オンライン認識テキストを得る。
ステップ304において、オンライン認識テキストとオフライン認識テキストとの比較結果に基づいて、オンライン認識テキストとオフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定する。
ステップ305において、オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈する。
本実施例において、図1に示した端末機器101は、オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈することができる。
なお、ネットワーク環境の悪さ、ネットワークの切断、オンライン音声認識サーバの故障などの異常な理由により、オンライン認識テキストが返送されない可能性がある。異常な理由でオンライン認識テキストが返送されない場合、表示されたオフライン認識テキストを、表示される認識テキストとして決定する、異常処理メカニズムが提供される。
本実施例の幾つかの選択可能な実現形態において、上記のステップ201には、前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるステップを含む。
なお、前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションを含む。なお、ノイズリダクションのフローは、バックグラウンドノイズのスペクトル特性を安定させ、振幅は1つまたは複数の周波数スペクトルで非常に安定しており、例えば、バックグラウンドの小さな部分がバックグラウンドノイズである場合、最初のバックグラウンドノイズからグループ分けして、フーリエ変換して、これらのグループの平均値を求めて、ノイズスペクトルが得られる。ノイズリダクションのプロセスは、ノイズの多い音声を逆補償してから、ノイズが低減された音声を取得することです。
なお、エコーキャンセレーションは、ダブルトーク検出(Double talk Detection)と遅延推定(Delay Estimation)を含み、インテリジェントターミナルのエコーキャンセレーションモジュールについて、現在のモード(ニアトークモード、ファートークモード、ダブルトークモード)を判断することによって、様々な方法で濾波器w1とw2を更新して、遠端干渉を除去する。このうえで、ポストフィルタリングアルゴリズム(Post°Filtering°Algorithm)により残留ノイズの干渉を排除する。一般的に音響エコーと混合エコーの2種類に分けられる。音声通話には、音声圧縮技術とバッチ処理の遅延によりバックエコーが発生するので、通常、通話品質を向上させるために、バックエコーキャンセレーションが必要である。バックエコーキャンセラーが受信経路に遠端からの話声を監視測定して、バックエコーの推定値を計算してから、送信経路からこの推定値を差し引いて、バックエコーが除去され、近端の話声のみが遠端に送信される。
なお、音響学では、遅延時間が約50ms以上に達する反射波がエコーとして呼ばれ、残りの反射波による影響が残響として呼ばれ、初期残響と後期残響に分けられる。早期残響成分が音声の明瞭度を向上させるのに役立つため、音声の残響除去であるタスクにおいて、後期残響の抑制についてより注目される。残響キャンセレーション方法は、主にビームフォーミング法、逆濾波法、音声強化法、ディープラーニング法に基づく四つのカテゴリがある。
収集された録音データストリームを前処理することによって、音声認識の精度を向上させることができる。
本実施例の幾つかの選択可能な実現形態において、オフライン認識テキストの長さが事前に設定された閾値以下である。例えば、オフライン認識テキストの呈示速度を確保するために、オフライン認識テキストの戻り文字を最大12文字に制限する。
さらに図4を参照すると、上記の図面に示す方法の実現形態として、本出願は、表示される認識テキストを決定する一実施例を提供している。当該装置実施例は図2に示す方法実施例と対応し、当該装置は、様々な各種電子機器に適用することができる。
図4に示されたように、本実施例に係る表示される認識テキストの決定装置400は、認識対象であるデータストリーム決定モジュール401、オフライン認識モジュール402、オンライン認識モジュール403、表示される認識テキスト決定モジュール404を含むことができる。なお、前記認識対象であるデータストリーム決定モジュール401は、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するように構成され、前記オフライン認識モジュール402は、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るように構成され、前記オンライン認識モジュール403は、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るように構成され、前記の表示される認識テキスト決定モジュール404は、前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するように構成される。
本実施例において、表示される認識テキストの決定装置400において、認識対象であるデータストリーム決定モジュール401、オフライン認識モジュール402、オンライン認識モジュール403、表示される認識テキスト決定モジュール404の具体的な処理及びそれらによる技術効果は、図2と対応する実施例においてステップ201~205の関連する説明をそれぞれ参照することができるので、ここでは説明を省略する。
本実施例の幾つかの選択可能な実現形態において、前記オフライン認識モジュールは、表示機器で前記オフライン認識テキストを呈するように構成される表示モジュールを更に含む。前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストが前記オンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される。
本実施例の幾つかの選択可能な実現形態において、前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストが前記オンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更することができるように構成される。
本実施例の幾つかの選択可能な実現形態において、前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値未満である場合に応答して、前記オンライン認識テキストを、表示される認識テキストとして決定するように構成される。
本実施例の幾つかの選択可能な実現形態において、前記の表示される認識テキスト決定モジュールは、さらに、前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するように構成される。本実施例の幾つかの選択可能な実現形態において、前記オンライン認識テキストの長さが前記オフライン認識テキストの長さ以下である。
本実施例の幾つかの選択可能な実現形態において、前記装置は、前記オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される異常処理モジュールをさらに含む。
本実施例の幾つかの選択可能な実現形態において、前記認識対象であるデータストリーム決定モジュールは、さらに、前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるように構成される。
本実施例の幾つかの選択可能な実現形態において、前記前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションのいずれかを含む。
本実施例の幾つかの選択可能な実現形態において、前記オフライン認識テキストの長さが事前に設定された閾値以下である。
図5に示されたように、本出願の実施例に係る表示される認識テキストの決定方法による電子機器のブロック図が示される。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、その他の適切なコンピュータなど、様々な形態のデジタルコンピュータを示すことを目的としている。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、およびその他の同様のコンピュータデバイスなど、様々な形式のモバイルデバイスを表すこともできる。本明細書に示す部品、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書に記載及び/又は要求とされる本出願の実現を制限することを意図するものではない。
図5に示されたように、当該電子機器は、1つ又は複数のプロセッサ501、メモリ502、及び各部品を接続するための、高速インタフェースと低速インタフェースを含むインタフェースを含む。各部品は、異なるバスにより相互に接続しており、共通のメインボードに設置してもよく、必要に応じて他の方法により設置してもよい。プロセッサは、電子機器内に実行されたコマンドを処理することができ、前記コマンドは、メモリに記憶されたコマンド或いはメモリにある外部入力/出力装置(例えば、インタフェースに結合された表示機器)にGUIのグラフィック情報を表示させるためのコマンドを含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを複数のメモリと複数のメモリとともに使用することができる。同様、複数の電子機器と接続して、各機器に幾つかの必要とする操作(例えば、サーバアレイ、ブレードサーバのグループ、或いはマルチプロセッサシステム)を提供することができる。図5はプロセッサ501を例として示されている。
メモリ502は、本出願が提供する非一時的コンピュータ可読記録媒体である。そのうち、前記メモリに記憶された少なくとも一つのプロセッサによって実行され得るコマンドによって、前記の少なくとも一つのプロセッサに本出願が提供する表示される認識テキストの決定方法を実行させる。本出願に係る非一時的コンピュータ可読記録媒体にコンピュータコマンドが記憶され、当該コンピュータコマンドはコンピュータに本出願が提供する表示される認識テキストの決定方法。
メモリ502は、非一時的コンピュータ可読記録媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶するために用いられ、例えば、本出願の実施例に係る表示される認識テキストの決定方法と対応するプログラムコマンド/モジュール(例えば、図4に示す認識対象であるデータストリーム決定モジュール401、オフライン認識モジュール402、オンライン認識モジュール403、表示される認識テキスト決定モジュール404)。プロセッサ501は、メモリ502に記憶された非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することによって、サーバにおける様々な功能アプリケーション及びデータ処理を実行する。よって、上記の方法実施例に係る表示される認識テキストの決定方法を実現する。
メモリ502は、記憶プログラム領域と記憶データ領域を含んでも良く、前記記憶プログラム領域は、オペレーティングシステム、少なくとも一つの機能が必要とするアプリケーションプログラムを記憶することができ、前記記憶データ領域は、表示される認識テキストの決定方法的電子機器の使用によるデータ等を記憶することができる。また、メモリ502は、高速ランダムアクセスメモリを含んでも良く、非一時的メモリを含んでも良く、例えば少なくとも一つ磁気ディスク記憶装置、フラッシュ記憶装置、又は他の非一時的ソリッドステート記憶装置であってもよい。幾つかの実施例において、メモリ502はプロセッサ501に対して遠隔設定されたメモリを選択しても良く、これらの遠隔メモリは、ネットワークを介して表示される認識テキストの決定方法による電子機器に接続することができる。前記ネットワークの一例としてインターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク及びそれらの組み合わせを含むがこれらに限定されない。
表示される認識テキストの決定方法による電子機器は、入力装置503、出力装置504をさらに含んでも良い。プロセッサ501、メモリ502、入力装置503、出力装置504は、バスまたは他の方法で接続することができる。図5では、バス接続を例として示されている。
入力装置503は、入力された数値、文字情報を受信することができ、表示される認識テキストの決定方法による電子機器のユーザ設定及び機能制御と関連するキー信号入力を生成することもでき、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置であってもよい。出力装置504は、表示機器、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)等を含むことができる。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、プラズマディスプレイを含むがこれらに限定されていない。幾つかの実施形態において、表示機器はタッチスクリーンであってもよい。
ここで記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにより実現することができる。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実行されることを含み、当該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈することができ、当該プログラム可能なプロセッサは、専用または通用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、少なくとも一つの出力装置からデータとコマンドを受信し、データとコマンドを当該記憶システム、当該少なくとも一つの入力装置、当該少なくとも一つの出力装置に転送してもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)には、プログラム可能なプロセッサの機械語コマンドが含まれ、高レベルのプロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブラ/機械語によりこれらのコンピュータプログラムを実行する。本明細書で使用された、「機械読み取り可能な記録媒体」と「コンピュータ可読記録媒体」という用語は、機械コマンド及び/又はデータをプログラム可能なプロセッサのいずれかのコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))に提供するためのものを指し、機器コマンドを機械読み取り可能な信号として受信するための機器読み取り可能媒体を含む。「機械読み取り可能な信号」という用語は、机器コマンド及び/又はデータをプログラム可能なプロセッサに提供するためのいずれかの信号である。
ユーザとのインタラクションを提供するために、コンピュータにここで記載のシステムと技術を実行することができる。当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)或いはLCD(液晶ディスプレイ)モニター)と、ユーザが当該キーボードと当該ポインティングデバイスにより入力をコンピュータに提供するキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)を備える。他の種類の装置は、ユーザとのインタラクションを提供するためのものであってもよく、例えば、ユーザに提供するフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってよく、任意の形式(音響入力、音声入力、または触覚入力を含む)ユーザからの入力を受け取ることができる。
ここで記載のシステムと技術を、バックエンド部品を含むコンピュータシステム(例えば、データサーバ)、或いは中間部品を含むコンピュータシステム(例えば、アプリケーションサーバ)、或いはフロントエンド部品を含むコンピュータシステム(例えば、グラフィカルユーザーインターフェース或いはネットワークブラウザを有するユーザコンピュータは、ユーザが当該グラフィカルユーザーインターフェース或いは当該ネットワークブラウザによりここで記載のシステムと技術の実施形態とインタラクションする)、或いはこのバックエンド部品、中間部品、或いはフロントエンド部品の任意の組み合わせのコンピュータシステムで実行してもよい。任意の形式或いは媒体によるデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を相互に接続することができる。通信ネットワークの例として、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)とインターネットを含む。
コンピュータシステムには、クライアントとサーバを含んでも良い。クライアントとサーバは、通常に互いに遠く離れており、通常に通信ネットワークを介してインタラクションをする。クライアントとサーバの関係は、対応するコンピュータで実行された、お互いにクライアントとサーバの関係を持つコンピュータプログラムによって生成される。本出願の実施例の技術案によれば、まず、処理対象ビデオフレームのコンテンツ情報を取得することによって、処理対象ビデオフレームの理解に有利である。その後、前記コンテンツ情報に基づいてテキスト記述情報を構築することによって、情報によるビデオの記述が実現される。そして、前記テキスト記述情報を事前トレーニング済みのテキスト変換モデルにインポートして、前記テキスト記述情報と対応する解説テキスト情報が得られることによって、ビデオ解説に対する適切性を向上する。最後に前記解説テキスト情報をオーディオ情報に変更する。本出願はビデオに対する音声解説を実現し、ビデオの解説効率を向上する。
本出願の技術案に従って、まず、収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定してから、前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストが得られた後に、前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストが得られ、最後に前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定して、オンライン認識とオフライン認識を並行する案を採用することで、オフライン認識の速度を十分に発揮するだけでなく、オンライン認識の精度も備えているため、認識テキストの呈示が遅いという問題を解決するだけでなく、認識結果も保証される。
人工知能は、人々の特定の思惟プロセスと知能行為(学習、推論、思考、計画など)をシミュレートするためのコンピュータを研究する学科であり、ハードウェア面の技術とソフトウェア面の技術の両方がある。一般的に、人工知能ハードウェア技術にはセンサー、専用人工知能チップ、クラウドコンピューティング、分散型記憶、ビッグデータ処理などの技術が含まれる。人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術、機械学習/深層学習、ビッグデータ処理技術、及び知識図鑑技術などの面が含まれる。
なお、上記に示す様々な形式のフロー、並べ替え、追加又は削除のステップを利用することができることを理解されたい。例えば、本出願に記載の各ステップは、本出願に開示された技術的解決策の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行することができ、これは本明細書に限定されない。
上記のした具体的な実施形態は、本出願の範囲を制限するものではない。当業者であれば、設計要件および他の要因に応じて様々な修正、組み合わせ、サブコンビネーションおよび置き換えを行うことができることを理解されたい。本出願の主旨と原則の範囲内で行われた変更、同等の置き換え、改良は、いずれも本出願の範囲内に含まれるものとする。

Claims (23)

  1. 表示される認識テキストの決定方法であって、
    収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するステップと、
    前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るステップと、
    前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るステップと、
    前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップと、
    を含む、方法。
  2. 上記した前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るステップは、
    表示機器で前記オフライン認識テキストを呈するステップを更に含み、
    上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
    前記オフライン認識テキストが前記オンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するステップを含む、
    請求項1に記載の方法。
  3. 前記オンライン認識テキストの長さが前記オフライン認識テキストの長さ以下である、
    請求項2に記載の方法。
  4. 上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
    前記オフライン認識テキストが前記オンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更するステップを含む、
    請求項2に記載の方法。
  5. 上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
    前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値未満である場合に応答して、前記オンライン認識テキストを、表示される認識テキストとして決定するステップを含む、
    請求項1に記載の方法。
  6. 上記した前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するステップは、
    前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するステップを含む、
    請求項5に記載の方法。
  7. 前記オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈する、
    請求項2に記載の装置。
  8. 上記した収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するステップは、
    前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるステップを含む、
    請求項1に記載の方法。
  9. 前記前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションのいずれかを含む、
    請求項8に記載の方法。
  10. 前記オフライン認識テキストの長さが事前に設定された閾値以下である、
    請求項1~9のいずれか一項に記載の方法。
  11. 表示される認識テキストの決定装置であって、
    収集されたユーザによる録音データストリームによれば、認識対象であるデータストリームを決定するように構成される認識対象であるデータストリーム決定モジュールと、
    前記認識対象であるデータストリームをローカルで認識して、オフライン認識テキストを得るように構成されるオフライン認識モジュールと、
    前記認識対象であるデータストリームをオンラインで認識して、オンライン認識テキストを得るように構成されるオンライン認識モジュールと、
    前記オンライン認識テキストと前記オフライン認識テキストとの比較結果に基づいて、前記オンライン認識テキストと前記オフライン認識テキストのうちユーザの意図をよく特徴付ける認識テキストを、表示される認識テキストとして決定するように構成される表示される認識テキスト決定モジュールと、
    を含む、装置。
  12. 前記オフライン認識モジュールは、
    表示機器で前記オフライン認識テキストを呈するように構成される表示モジュールを更に含み、
    前記の表示される認識テキスト決定モジュールは、さらに、
    前記オフライン認識テキストが前記オンライン認識テキストを含む場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される、
    請求項11に記載の装置。
  13. 前記オンライン認識テキストの長さが前記オフライン認識テキストの長さ以下である、
    請求項12に記載の装置。
  14. 前記の表示される認識テキスト決定モジュールは、さらに、
    前記オフライン認識テキストが前記オンライン認識テキストを含まない場合に応答して、表示機器で表示されたオフライン認識テキストを前記オンライン認識テキストに変更することができるように構成される、
    請求項12に記載の装置。
  15. 前記の表示される認識テキスト決定モジュールは、さらに、
    前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値未満である場合に応答して、前記オンライン認識テキストを、表示される認識テキストとして決定するように構成される、
    請求項11に記載の装置。
  16. 前記の表示される認識テキスト決定モジュールは、さらに、
    前記オフライン認識テキストと前記オンライン認識テキストの類似度が所定の閾値以上である場合に応答して、前記オフライン認識テキストを、表示される認識テキストとして決定するように構成される、
    請求項15に記載の装置。
  17. 前記オンライン認識テキストが返送されない場合に応答して、表示機器で表示されたオフライン認識テキストをそのまま呈するように構成される異常処理モジュールをさらに含む、
    請求項12に記載の装置。
  18. 前記認識対象であるデータストリーム決定モジュールは、さらに、
    前記の収集された録音データストリームを前処理して、認識対象であるデータストリームが得られるように構成される、
    請求項11に記載の装置。
  19. 前記前処理は、ノイズリダクション、エコーキャンセレーション、残響キャンセレーションのいずれかを含む、
    請求項18に記載の装置。
  20. 前記オフライン認識テキストの長さが事前に設定された閾値以下である、
    請求項11~19のいずれか1項に記載の装置。
  21. 電子機器であって、
    少なくとも一つのプロセッサと、
    少なくとも一つのプロセッサと通信して接続されたメモリと、を備え、
    前記メモリに記憶された前記少なくとも一つのプロセッサにより実行されるコマンドは、少なくとも一つのプロセッサにより実行されると、少なくとも一つのプロセッサに請求項1~10のいずれか1項に記載の方法を実行させる、電子機器。
  22. コンピュータプログラムが記録された非一時的コンピュータ可読記録媒体であって、
    前記コンピュータコマンドは、コンピュータに請求項1~10のいずれか1項に記載の方法を実行させるコンピュータプログラム。
  23. コンピュータプログラムであって、
    前記コンピュータコマンドは、プロセッサにより実行されると、請求項1~10のいずれか1項に記載の方法を実行させるコンピュータプログラム。
JP2021172480A 2020-11-13 2021-10-21 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム Pending JP2022028670A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011270771.4A CN112164392A (zh) 2020-11-13 2020-11-13 确定显示的识别文本的方法、装置、设备以及存储介质
CN202011270771.4 2020-11-13

Publications (1)

Publication Number Publication Date
JP2022028670A true JP2022028670A (ja) 2022-02-16

Family

ID=73865824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021172480A Pending JP2022028670A (ja) 2020-11-13 2021-10-21 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220044049A1 (ja)
EP (1) EP3923278A3 (ja)
JP (1) JP2022028670A (ja)
KR (2) KR20210086582A (ja)
CN (1) CN112164392A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113314149A (zh) * 2021-04-19 2021-08-27 贵州电网有限责任公司 一种基于人工智能的电力调度智慧坐席指令优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012501480A (ja) * 2008-08-29 2012-01-19 マルチモーダル・テクノロジーズ・インク ハイブリッド型音声認識
JP2013072904A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 音声認識方法および音声認識装置
JP2014010456A (ja) * 2012-06-28 2014-01-20 Lg Electronics Inc 移動端末機及びその音声認識方法
JP2014063088A (ja) * 2012-09-24 2014-04-10 Toshiba Corp 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
KR102215579B1 (ko) * 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US10077987B2 (en) * 2015-05-28 2018-09-18 Google Llc Dynamically integrating offline and online data in a geographic application
US10706852B2 (en) * 2015-11-13 2020-07-07 Microsoft Technology Licensing, Llc Confidence features for automated speech recognition arbitration
US10410635B2 (en) * 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
CN108182432A (zh) * 2017-12-28 2018-06-19 北京百度网讯科技有限公司 信息处理方法和装置
CN110444196B (zh) * 2018-05-10 2023-04-07 腾讯科技(北京)有限公司 基于同声传译的数据处理方法、装置、系统和存储介质
CN109256125B (zh) * 2018-09-29 2022-10-14 阿波罗智联(北京)科技有限公司 语音的离线识别方法、装置与存储介质
CN109961792B (zh) * 2019-03-04 2022-01-11 阿波罗智联(北京)科技有限公司 用于识别语音的方法和装置
CN111554297B (zh) * 2020-05-15 2023-08-22 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备及可读存储介质
CN114205665B (zh) * 2020-06-09 2023-05-09 抖音视界有限公司 一种信息处理方法、装置、电子设备及存储介质
CN111833875B (zh) * 2020-07-10 2023-06-06 安徽芯智科技有限公司 一种嵌入式语音交互系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012501480A (ja) * 2008-08-29 2012-01-19 マルチモーダル・テクノロジーズ・インク ハイブリッド型音声認識
JP2013072904A (ja) * 2011-09-26 2013-04-22 Toshiba Corp 音声認識方法および音声認識装置
JP2014010456A (ja) * 2012-06-28 2014-01-20 Lg Electronics Inc 移動端末機及びその音声認識方法
JP2014063088A (ja) * 2012-09-24 2014-04-10 Toshiba Corp 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム

Also Published As

Publication number Publication date
EP3923278A3 (en) 2022-05-18
EP3923278A2 (en) 2021-12-15
US20220044049A1 (en) 2022-02-10
CN112164392A (zh) 2021-01-01
KR20210138522A (ko) 2021-11-19
KR20210086582A (ko) 2021-07-08

Similar Documents

Publication Publication Date Title
US10217463B2 (en) Hybridized client-server speech recognition
US10943605B2 (en) Conversational interface determining lexical personality score for response generation with synonym replacement
US10733384B2 (en) Emotion detection and expression integration in dialog systems
US10878816B2 (en) Persona-based conversational interface personalization using social network preferences
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
JP2021056991A (ja) 推薦方法、装置、電子デバイス、記憶媒体、及びプログラム
CN112100352A (zh) 与虚拟对象的对话方法、装置、客户端及存储介质
US11763089B2 (en) Indicating sentiment of users participating in a chat session
JP2022534888A (ja) 2パスエンドツーエンド音声認識
US20230058437A1 (en) Method for human-computer interaction, apparatus for human-computer interaction, device, and storage medium
JP2021089438A (ja) 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用
CN112148850A (zh) 动态交互方法、服务器、电子设备及存储介质
JP2022028670A (ja) 表示される認識テキストの決定方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN112466327B (zh) 语音处理方法、装置和电子设备
US11017790B2 (en) Avoiding speech collisions among participants during teleconferences
US10936823B2 (en) Method and system for displaying automated agent comprehension
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
CN111724805A (zh) 用于处理信息的方法和装置
US20230081543A1 (en) Method for synthetizing speech and electronic device
CN114582339A (zh) 语音交互方法、装置、电子设备和介质
CN116665690A (zh) 算法选取模型的训练方法、回声消除方法、装置及设备
CN112037786A (zh) 语音交互方法、装置、设备以及存储介质
CA2981261A1 (en) Persona-based conversational interface personalization using social network preferences
CA2981281A1 (en) Conversational interface personalization based on input context

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230317

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231020

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231031

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20231222