JP6618223B2

JP6618223B2 - 音声処理方法及び装置

Info

Publication number: JP6618223B2
Application number: JP2018567843A
Authority: JP
Inventors: シュフリ
Original assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Geely Automobile Research Institute Co Ltd
Current assignee: Zhejiang Geely Holding Group Co Ltd; Zhejiang Geely Automobile Research Institute Co Ltd
Priority date: 2016-09-22
Filing date: 2017-09-20
Publication date: 2019-12-11
Anticipated expiration: 2037-09-20
Also published as: EP3497696A1; WO2018054309A1; EP3497696A4; JP2019532318A; CN106251869B; US11011170B2; US20190251972A1; CN106251869A

Description

＜関連出願の相互参照＞
本願は、２０１６年９月２２日に出願された第２０１６１０８４１１６０．８号の中国特許出願に基づくものであり、その優先権を主張する。上記出願の全開示は、参照により本明細書に組み込まれ、本明細書の一部をなす。

本発明は、音声認識技術の分野に関し、特に音声処理方法及び装置に関する。

音声認識技術は、機器を通して人間の音声を正しく認識し、人間の音声における語彙内容を対応するコンピューター読み取り可能及び書き込み可能なテキスト又は命令に変換することができるハイテク技術である。科学と技術の継続的な進展に伴い、音声認識技術はますます広範囲になっている。音声認識技術は、キーボード入力などの他の入力方法よりも使いやすいため、最も重要なヒューマンコンピュータ・インタラクション技術の１つとなる。

しかしながら、従来技術の音声入力方法の最も大きな問題は、音声処理の認識速度が速くなく、正確性が高くないということである。認識速度が遅いという問題は徐々に解決されてきたが、言語における類似の単語や様々な言語の存在及び他の理由により、精度が低い問題は解決することができず、それはユーザー体験に影響を与え、ユーザー音声入力の要求を満たすことができない。

従って、本発明は、音声処理の精度及び利便性を向上させ、ユーザーに良好な経験効果を与えることができる音声処理方法を提供する。

本発明の実施形態は、音声処理方法を提供する。この方法は、音声情報を受信するステップと、音声情報を複数のテキスト情報に変換するように音声情報を認識するステップと、少なくとも１つのテキスト情報を表示するステップと、選択されたテキスト情報に応じて応答するように選択信号を受信するステップとを含む。

具体的には、選択されたテキスト情報に応じて応答するように選択信号を受信するステップは、各テキスト情報において選択されたテキストを取得するステップと、
選択されたテキスト情報を得るように選択されたテキストをプリセット規則に従ってソートするステップとを含む。

具体的には、少なくとも１つのテキスト情報を表示するステップは、同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較するステップと、最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算するステップと、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するステップとを含む。

具体的には、少なくとも１つのテキスト情報を表示するステップは、強調表示された単語又は文字のためのトリガ信号を受信するステップと、トリガ信号に応じて、強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するステップと、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るステップとを更に含む。

具体的には、単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも１つの項目に基づいて、単語又は文字に対して重み処理が実行される。

本発明の実施形態は、音声処理装置を更に提供する。この音声処理装置は、音声情報を受信するための受信モジュールと、音声情報を複数のテキスト情報に変換するように音声情報を認識するための音声認識モジュールと、少なくとも１つのテキスト情報を表示するための表示モジュールと、選択されたテキスト情報に応じて応答するように、選択信号を受信するためのテキスト入力モジュールとを含む。

具体的には、テキスト入力モジュールは、各テキスト情報において選択されたテキストを取得するための取得ユニットと、選択されたテキスト情報を得るように、選択されたテキストをプリセット規則に従ってソートするための第１テキスト処理ユニットとを含む。

具体的には、表示モジュールは、同じ音声によって認識された異なる単語又は文字を得るように複数のテキスト情報を比較し、最も高い重みスコアを有する単語又は文字を選択するように単語又は文字の重みスコアをそれぞれ計算するための第２テキスト処理ユニットと、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するための第１表示ユニットとを含む。

具体的には、テキスト入力モジュールは、強調表示された単語又は文字のためのトリガ信号を受信するための受信ユニットと、トリガ信号に応じて、強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するための第２表示ユニットと、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るための第３テキスト処理ユニットとを含む。

本発明の実施形態により提供される音声処理方法及び装置によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができるので、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性が向上し、ユーザーに優れた体験効果が提供される。

上記及び他の目的、特徴及び利点をより明確に理解させるために、好ましい態様を以下に例示し、そして図面を参照しながら詳細を以下に記載する。

端末の構造ブロック図を示す。本発明の第１実施形態による音声処理方法のフローチャートである。本発明の第２実施形態による音声処理方法のフローチャートである。本発明の第３実施形態による音声処理方法のフローチャートである。本発明の第４実施形態による音声処理装置の構造ブロック図である。本発明の第５実施形態による音声処理装置の構造ブロック図である。本発明の第６実施形態による音声処理装置の構造ブロック図である。

本発明の実施形態における添付の図面を参照しながら、本発明の実施形態における技術的解決策について、以下に説明する。明らかに、説明される実施形態は、本発明の一部に過ぎず、実施形態のすべてではない。本発明の実施形態に基づいて、創造的な作業を行うことなく当業者によって得られる全ての他の実施形態は、本発明の範囲内にある。

図１は、端末の構造ブロック図を示す。本発明は、図１に示されるような端末に適用できる音声処理方法及び装置を提供する。図１に示されるように、端末１０は、メモリ１０２と、格納制御装置１０４と、１つ以上のプロセッサー１０６（図には１つのみ示されている）と、周辺インタフェース１０８と、無線周波数（ＲＦ）モジュール１１０と、測位モジュール１１２と、カメラモジュール１１４と、オーディオモジュール１１６と、画面１１８と、ボタンモジュール１２０とを含む。これらの構成要素は、１つ以上の通信バス／信号線１２２を介して、互いに通信する。

図１に示される構造は概略図にすぎないことが理解される。端末１０は、図１に示されるものより多いか、又は少ない構成要素を含んでもよく、或いは、図１とは異なる構成を有してもよい。図１に示される各構成要素は、ハードウェア、ソフトウェア、又はそれらの組み合わせで実施されてもよい。

メモリ１０２は、本発明の実施形態における音声処理方法及び装置に対応するプログラム指示／モジュールなどのソフトウエアプログラムやモジュールを格納するために使用されてもよい。プロセッサー１０６は、格納制御装置１０４に格納されたソフトウエアプログラム及びモジュールを実行することにより、様々な機能的アプリケーションやデータ処理を実行して、上記の音声処理方法及び装置を実現する。

メモリ１０２は、高速ランダムアクセスメモリを含んでもよく、また、１つ以上の磁気記憶装置、フラッシュメモリ又は他の不揮発性固体メモリなどの不揮発性メモリを更に含んでもよい。幾つかの例では、メモリ１０２は、プロセッサー１０６に対して遠隔に設けられ且つネットワークを介して端末１０に接続され得るメモリを更に含んでもよい。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク（ＬＡＮ）、移動通信ネットワーク及びそれらの組み合わせを含むが、それらに限定されない。メモリ１０２へのプロセッサー１０６及び別の可能な構成要素のアクセスは、格納制御装置１０４の制御下で実行されてもよい。

周辺インタフェース１０８は、様々な入力／出力装置をＣＰＵ及びメモリ１０２に結合する。プロセッサー１０６は、端末１０の様々な機能及びデータ処理を実行するように、メモリ１０２内の様々なソフトウェア及び指示を実行する。

幾つかの実施形態では、周辺インタフェース１０８、プロセッサー１０６及び格納制御装置１０４は、単一のチップに実現され得る。他の実施形態では、それらは、別々のチップに実現することができる。

無線周波数モジュール１１０は、通信ネットワーク又は他の機器と通信するために電磁波と電気信号との相互変換を実現するように電磁波を受信及び伝送するために使用される。無線周波数モジュール１１０は、アンテナ、無線周波数トランシーバ、デジタル信号プロセッサー、暗号化／復号化チップ、加入者識別モジュール（ＳＩＭ）カード、メモリなど、これらの機能を実行するための様々な既存の回路素子を含んでもよい。無線周波数モジュール１１０は、インターネット、イントラネット、無線ネットワークなどの様々なネットワークと通信してもよく、または無線ネットワークを介して他の機器と通信してもよい。上記の無線ネットワークは、セルラー電話ネットワーク、ワイヤレスローカルエリアネットワーク、又はメトロポリタンエリアネットワークを含み得る。上記の無線ネットワークは、様々な通信標準、プロトコル及び技術を使用してもよい。様々な通信標準、プロトコル及び技術は、グローバル移動通信システム（ＧＳＭ（登録商標））、拡張データＧＳＭ環境（ＥＤＧＥ）、広帯域符号分割多元接続（Ｗ−ＣＤＭＡ）、符号分割接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、ブルートゥース(登録商標)、ワイヤレスフィデリティ（ＷｉＦｉ）（ＩＥＥＥ８０２．１１ａ、ＩＥＥＥ８０２．１１ｂ、ＩＥＥＥ８０２．１１ｇ及び／又はＩＥＥＥ８０２．１１ｎなど）、ボイスオーバインターネットプロトコル（ＶｏＩＰ）、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス（Ｗｉ−Ｍａｘ）、その他のメール、インスタントメッセージ及びテキストメッセージングのためのプロトコル、任意の他の適切な通信プロトコル、さらに未だ開発されていないプロトコルを含むが、それらに限定されない。

測位モジュール１１２は、端末１０の現在位置を取得するために使用される。測位モジュール１１２の例は、全地球測位システム（ＧＰＳ）、及びワイヤレスローカルエリアネットワーク又は移動通信ネットワークに基づく測位技術を含むが、それらに限定されない。

カメラモジュール１１４は、写真又はビデオを撮るために使用される。取り込まれた写真又はビデオは、メモリ１０２に格納されてもよく、無線周波数モジュール１１０を介して伝送されてもよい。

オーディオモジュール１１６は、１つ以上のマイクロホン、１つ以上のラウドスピーカー、１つ以上のオーディオ回路を含み得るオーディオインタフェースをユーザーに提供する。オーディオ回路は、周辺インタフェース１０８から音データを受信し、音データを電気情報に変換し、電気情報をスピーカーに伝送する。ラウドスピーカーは、電気情報を人間の耳で聞くことができる音波に変換する。オーディオ回路はまた、マイクロホンから電気情報を受信し、電気信号を音データに変換し、更なる処理のために音データを周辺インタフェース１０８に伝送する。オーディオデータは、メモリ１０２から、又は無線周波数モジュール１１０を介して取得されてもよい。さらに、オーディオデータは、メモリ１０２に格納されてもよいし、又は無線周波数モジュール１１０を介して伝送されてもよい。幾つかの例では、オーディオモジュール１１６はまた、オーディオインタフェースをイヤホン又は他の装置に提供するためのイヤホンブロードキャストホールを含んでもよい。

画面１１８は、端末１０とユーザーとの間の出力インタフェースを提供する。具体的には、画面１１８は、ビデオ出力をユーザーに提供する。ビデオ出力の内容は、テキスト、グラフィック、ビデオ、及びそれらの任意の組み合わせを含み得る。幾つかの出力結果は、幾つかのユーザーインタフェースオブジェクトに対応する。画面１１８はまたタッチ画面を含んでもよいことが理解される。ユーザーへのビデオ出力の表示に加えて、タッチ画面はまた、ユーザーインタフェースオブジェクトがユーザーの入力に応答するように、ユーザーのクリック、スライドなどのジェスチャのようなユーザー入力を受信する。ユーザー入力を検出する技術は、抵抗式、容量式、又は他の任意の可能なタッチ検出技術に基づいてもよい。タッチ画面表示ユニットの具体的な例は、液晶ディスプレイ又は発光ポリマーディスプレイを含むが、それらに限定されない。

ボタンモジュール１２０はまた、ユーザーが端末１０に入力するためのインタフェースを提供する。ユーザーは、異なるボタンを押して、端末１０に異なる機能を実行させることができる。

第１実施形態
図２は、本発明の第１実施形態による音声処理方法のフローチャートである。本実施形態は、音声処理装置により実行される音声処理方法である。図２に示されるように、本実施形態の音声処理方法は、以下のステップＳ１１〜ステップＳ１４を含み得る。

ステップＳ１１では、音声情報を受信する。

具体的には、端末内で動作する音声処理装置は、マイクロホン又は他の音声入力装置を介してユーザーにより入力された音声情報を受信してもよい。端末は、パーソナルコンピューター、ノートブック型コンピューター、タブレットコンピューター、電子書籍、スマートフォン及びスマートウォッチなどの音声入力機能を有する電子機器であってもよい。端末は、電子書籍リーダー、動画専門家集団オーディオレイヤーＩＩＩ又は動画像圧縮規格オーディオエキスパートレベル３（ＭＰ３）プレーヤー、動画専門家集団オーディオレイヤーＩＶ又は動画像圧縮規格オーディオエキスパートレベル４（ＭＰ４）、ラップトップ型の携帯用のコンピューター及びデスクトップコンピューターであってもよい。当然のことながら、当業者であれば、第１端末内で動作する音声処理装置によって受信された音声情報はまた、第２端末から第１端末に伝送された音声情報、又は、ネットワークサーバを介して第１端末によってダウンロードされ一時的に格納された音声情報であってもよいが、それらに限定されないことを理解する。

ステップＳ１２では、音声情報を複数のテキスト情報に変換するように音声情報を認識する。

具体的には、音声処理装置は、音声情報を受信した後、音声認識技術によって音声情報を認識して、音声情報を複数のテキスト情報に変換する。具体的に、一実施形態では、音声処理装置は、クラウドサーバーと通信する。音声処理装置は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置に直接格納されてもよいことを理解する。

ステップＳ１３では、少なくとも１つのテキスト情報を表示する。

具体的には、音声処理装置は、表示モジュールを介して少なくとも１つのテキスト情報を表示する。一実施形態では、音声処理装置は、音声情報を変換して得られた全てのテキスト情報を表示するが、それらに限定されない。例えば、別の実施形態では、音声処理装置は、音声情報を変換して得られた複数のテキスト情報の中の１つのテキスト情報を表示してもよい。

ステップＳ１４では、選択されたテキスト情報に応じて応答するように、選択信号を受信する。

具体的には、ユーザーは、テキスト情報をクリックするか、又はテキスト情報における単語又は文字をクリックすることによって選択を行い、選択されたテキスト情報を取得してもよい。それにより、ユーザーにより入力された情報は選択されたテキスト情報であることが確認されて（これに限定されない）、ユーザー入力がより便利になり、音声処理の精度の問題が解決され、ユーザー体験が改善される。

本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語（標準語や、広東語、北東部、四川省などの地元の方言）、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置は、受信された様々な言語の音声情報を認識することが可能になる。

本発明の実施形態により提供される音声処理方法によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報をクリックすることによって選択及び確認することができるので、選択されたテキスト情報は受信された音声情報と一致して、音声処理の精度及び利便性が向上し、ユーザーに優れた体験効果が提供される。

第２実施形態
図３は、本発明の第２実施形態による音声処理方法のフローチャートである。本実施形態は、音声処理装置により実行される音声処理方法である。図３に示されるように、本実施形態の音声処理方法は、以下のステップＳ２１〜ステップＳ２２を含み得る。

ステップＳ２１では、各テキスト情報において選択されたテキストを取得する。

具体的に、本実施形態では、音声処理装置における表示モジュールは、複数のテキスト情報を同時に表示する。ユーザーは、音声処理装置に表示された各テキスト情報の中からユーザーのニーズに合ったテキストを選択することができる。音声処理装置は、ユーザーの選択に従って、各テキスト情報内の選択されたテキストを取得する。例えば、テキスト情報が、ユーザーにより入力された音声情報中の全ての正しい単語又は文字を既に含んでいる場合、ユーザーは、テキスト情報を連続して押してテキスト情報全体を取得することができるが、これに限定されない。

ステップＳ２２では、選択されたテキスト情報を得るように、選択されたテキストをプリセット規則に従ってソートする。

具体的には、一実施形態では、音声処理装置は、時間規則に従って、選択されたテキストをソートして選択されたテキスト情報を取得してもよいが、これに限定されない。例えば、音声処理装置は、ユーザーがテキストを選択する時間順に従ってソートしてもよい。具体的には、最初に選択されたテキストがテキスト情報の前に置かれ、最後に選択されたテキストがテキスト情報の後に置かれる。それにより、ユーザーが必要とするテキスト情報を迅速かつ正確に取得するために、選択されたテキスト情報が形成される。

別の実施形態では、音声処理装置は、文法規則に従って、選択されたテキストをソートして、選択されたテキスト情報を取得してもよいが、これに限定されない。例えば、音声処理装置は、選択されたテキストの特徴、文法、及び音声情報中の文の文構造の予測に基づいて、選択されたテキストをテキスト情報内の異なる位置に挿入して、ユーザーが必要とするテキスト情報を迅速かつ正確に得るように、選択されたテキスト情報を形成する。

音声処理装置は、クラウドサーバーと通信する。音声処理装置は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置に直接格納されてもよいことを理解する。

本発明の実施形態により提供される音声処理方法によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができる。選択されたテキスト情報を得るように選択されたテキストがソートされて、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。

第３実施形態
図４は、本発明の第３実施形態による音声処理方法のフローチャートである。本実施形態は、音声処理装置により実行される音声処理方法である。図４に示されるように、本実施形態の音声処理方法は、以下のステップＳ３１〜ステップＳ３６を含み得る。

ステップＳ３１では、同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較する。

具体的に、本実施形態では、音声処理装置は、受信された音声情報を認識した後、クラウドサーバー内の大規模データベースから音声情報と一致するテキスト情報を取得する。音声情報中の記述が特徴に類似する単語又は文字の内容（異形同音異義語、同音異義語又は新たに作成された単語などの不確定な単語又は文字など）を含む場合、音声処理装置は複数のテキスト情報を取得する。音声処理装置は、複数のテキスト情報を比較して、各テキスト情報内の同じ音声によって認識された異なる単語又は文字を得る。例えば、音声処理装置は、受信された音声情報に基づいて音声認識を実行して、「彼が監督する（標準語で「ｚｈｉｄａｏ」を発音）映画は、観客から良い反応（標準語で「ｆａｎｙｉｎｇ」を発音）を得る」、「彼がガイドする（標準語で「ｚｈｉｄａｏ」を発音）映画は、観客から良い反響を得る」、及び「彼が監督する映画は、観客から良い反響（標準語で「ｆａｎｙｉｎｇ」を発音）を得る」などの複数のテキスト情報を得る。「監督」と「ガイド」は、同じ音声によって認識された２つの異なる単語であり、「反応」と「反響」は、同じ音声によって認識された２つの異なる単語であるが、これらに限定されない。

ステップＳ３２では、最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算する。

単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも１つの項目に応じて、単語又は文字に対して重み処理が実行される。

具体的には、一実施形態では、別々の単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の１つ以上の項目に基づいて、重み処理が実行されるが、これに限定されない。例えば、他の実施形態では、他の条件を設定することによって重み処理を実行してもよい。具体的に、本実施形態では、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か、及び数であるか否かの中の各項目に重みスコアをプリセットすることができる。単語又は文字が１つ以上の上記項目と一致する場合、別々の重みスコアが単語又は文字に割り当てられ、単語又は文字の最終重みスコアを得るように加算処理が実行される。最終重みスコアは、重みスコアリストに記録される。具体的には、単語又は文字の重みスコアを更新するように、大規模データベース内の情報に従って単語又は文字の重みスコアを更新することができる。更新された単語又は文字の重みスコアは、重みスコアリストに記録される。

ステップＳ３３では、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示する。

具体的には、テキスト情報中の単語又は文字の重みスコアが、複数のテキスト情報における同じ音声によってそれぞれ認識された単語又は文字の重みスコアより高い場合、音声処理装置は、その単語又は文字を含むテキスト情報を表示する。同時に、同じ音声によって認識された単語又は文字の中で最も高い重みスコアを有する単語又は文字が強調表示される。

ステップＳ３４では、強調表示された単語又は文字のためのトリガ信号を受信する。

具体的には、一実施形態では、ユーザーが強調表示された単語又は文字に満足していない場合、ユーザーは、強調表示された単語又は文字をクリック又は押すことでトリガ信号を生成してもよい。音声処理装置は、ユーザーが強調表示された単語又は文字をクリック又は押すことを検出すると、トリガ信号を受信する。

ステップＳ３５では、トリガ信号に応じて強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示する。

具体的には、ユーザーが所望の単語又は文字を選択するために、音声処理装置は、トリガ信号に従って、トリガされた単語又は文字に対して、プルダウンメニューに複数の単語又は文字を表示する。

ステップＳ３６では、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得る。

具体的には、音声処理装置は、選択されたテキスト情報が受信された音声情報によって表される意味と一致するように、受信された選択信号に従って、強調表示された単語又は文字を選択された単語又は文字に置換する。

具体的には、一実施形態では、音声処理装置は、受信された音声情報に基づいて音声認識を実行して、「彼が監督する（標準語で「ｚｈｉｄａｏ」を発音）映画は、観客から良い反応（標準語で「ｆａｎｙｉｎｇ」を発音）を得る」、「彼がガイドする（標準語で「ｚｈｉｄａｏ」を発音）映画は、観客から良い反響を得る」、及び「彼が監督する映画は、観客から良い反響（標準語で「ｆａｎｙｉｎｇ」を発音）を得る」などの複数のテキスト情報を得る。「監督」と「ガイド」は、同じ音声によって認識された２つの異なる単語であり、「反応」と「反響」は、同じ音声によって認識された２つの異なる単語である。音声処理装置は、「監督」と「ガイド」を計算して分析した後、「ガイド」の重みスコアが「監督」の重みスコアより高いことを得て、「反応」と「反響」を計算して分析した後、「反応」の重みスコアが「反響」より高いことを得る。音声処理装置は、最も高い重みスコアを有する「ガイド」と「反響」の２つの単語を選択して、全ての最も高い重みスコアを有する単語又は文字を含有する「彼がガイドする映画は、観客から良い反応を得る」というテキスト情報を得る。音声処理装置は、「彼がガイドする映画は、観客から良い反応を得る」を表示し、「ガイド」と「反応」を強調表示する。ユーザーが、テキスト情報を見た後に「ガイド」が音声情報に表される意味に一致しないと感じた場合、ユーザーは「ガイド」をクリックして音声処理装置にトリガ信号を送信してもよい。音声処理装置は、トリガ信号に応じて、ユーザーが選択し置換するように、音声中の「ガイド」と同じである複数の単語又は文字、例えば、「監督」、「知る」（標準語で「ｚｈｉｄａｏ」を発音）、「の道」（標準語で「ｚｈｉｄａｏ」を発音）、「〜にしか」（標準語で「ｚｈｉｄａｏ」を発音）を表示する。ユーザーが「監督」を選択した後、音声処理装置は、テキスト情報内の「ガイド」を「監督」に置換し、「彼が監督する映画は、観客からよい反応を得る」という選択されたテキスト情報を得るが、これに限定されない。

本発明の実施形態により提供される音声処理方法によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報における単語又は文字をクリックすることによって選択及び置換し、選択されたテキスト情報を得ることができるので、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。

第４実施形態
図５は、本発明の第４実施形態による音声処理装置４０の構造ブロック図である。本実施形態によって提供される音声処理装置４０は、第１実施形態において提供される音声処理方法を実現するように使用され得る。図５に示されるように、音声処理装置４０は、受信モジュール４２、音声認識モジュール４４、表示モジュール４６及びテキスト入力モジュール４８を含む。

受信モジュール４２は、音声情報を受信するために使用される。

音声認識モジュール４４は、音声情報を複数のテキスト情報に変換するように音声情報を認識するために使用される。

表示モジュール４６は、少なくとも１つのテキスト情報を表示するために使用される。

テキスト入力モジュール４８は、選択されたテキスト情報に応じて応答するように、選択信号を受信するためのものである。

本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語（標準語や、広東語、北東部、四川省などの地元の方言）、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置４０は、受信された様々な言語の音声情報を認識することが可能になる。

音声処理装置４０の音声認識モジュール４４は、クラウドサーバーと通信する。音声処理装置４０は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。具体的には、大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置４０に直接格納されてもよいことを理解する。

前述のモジュールのそれぞれはソフトウェアコードによって実現されてもよく、モジュールのそれぞれはメモリに格納されてもよい。前述のモジュールのそれぞれは、集積回路チップなどのハードウェアによって実現されてもよい。

本実施形態の音声処理装置４０における各機能ユニットの具体的な機能については、上記図１〜図４に示されている実施形態で説明した具体的な説明を参照することとし、重複する詳細な説明を省略する。

本発明の実施形態により提供される音声処理装置４０によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができる。選択されたテキスト情報を得るように選択されたテキストがソートされて、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。

第５実施形態
図６は、本発明の第５実施形態による音声処理装置５０の構造ブロック図である。本実施形態によって提供される音声処理装置５０は、第２実施形態において提供される音声処理方法を実現するように使用され得る。図６に示されるように、音声処理装置５０は、受信モジュール５２、音声認識モジュール５４、表示モジュール５６及びテキスト入力モジュール５８を含む。テキスト入力モジュール５８は、取得ユニット５８１及び第１テキスト処理ユニット５８２を含む。

受信モジュール５２は、音声情報を受信するために使用される。音声認識モジュール５４は、音声情報を複数のテキスト情報に変換するように音声情報を認識するために使用される。表示モジュール５６は、少なくとも１つのテキスト情報を表示するために使用される。テキスト入力モジュール５８は、選択されたテキスト情報に応じて応答するように選択信号を受信するために使用される。

取得ユニット５８１は、各テキスト情報において選択されたテキストを取得するために使用される。

第１テキスト処理ユニット５８２は、選択されたテキスト情報を得るように、選択されたテキストをプリセット規則に従ってソートするために使用される。

本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語（標準語や、広東語、北東部、四川省などの地元の方言）、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置５０は、受信された様々な言語の音声情報を認識することが可能になる。

音声処理装置５０の音声認識モジュール５４は、クラウドサーバーと通信する。音声処理装置５０は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。具体的には、大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置５０に直接格納されてもよいことを理解する。

本実施形態の音声処理装置５０における各機能ユニットの具体的な機能については、上記図１〜図５に示されている実施形態で説明した具体的な説明を参照することとし、重複する詳細な説明を省略する。

本発明の実施形態により提供される音声処理装置５０によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報におけるテキストをクリックすることによって選択及び確認することができる。選択されたテキスト情報を得るように選択されたテキストがソートされて、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。

第６実施形態
図７は、本発明の第６実施形態による音声処理装置６０の構造ブロック図である。本実施形態によって提供される音声処理装置６０は、第３実施形態において提供される音声処理方法を実現するように使用され得る。図７に示されるように、音声処理装置６０は、受信モジュール６２、音声認識モジュール６４、表示モジュール６６及びテキスト入力モジュール６８を含む。表示モジュール６６は、第２テキスト処理ユニット６６１及び第１表示ユニット６６２を含む。テキスト入力モジュール６８は、受信ユニット６８１、第２表示ユニット６８２及び第３テキスト処理ユニット６８３を含む。

受信モジュール６２は、音声情報を受信するために使用される。音声認識モジュール６４は、音声情報を複数のテキスト情報に変換するように音声情報を認識するために使用される。表示モジュール６６は、少なくとも１つのテキスト情報を表示するために使用される。テキスト入力モジュール６８は、選択されたテキスト情報に応じて応答するように選択信号を受信するために使用される。

第２テキスト処理ユニット６６１は、同じ音声によって認識された異なる単語又は文字を得るように複数のテキスト情報を比較し、最も高い重みスコアを有する単語又は文字を選択するように単語又は文字の重みスコアをそれぞれ計算するために使用される。

具体的に、本実施形態では、音声処理装置６０は、受信された音声情報を認識した後、クラウドサーバー内の大規模データベースから音声情報と一致するテキスト情報を取得する。音声情報中の記述が特徴に類似する単語又は文字の内容（異形同音異義語、同音異義語又は新たに作成された単語などの不確定な単語又は文字など）を含む場合、音声処理装置６０は複数のテキスト情報を取得する。音声処理装置６０は、各テキスト情報内の同じ音声によって認識された異なる単語又は文字を得るように、複数のテキスト情報を比較し、全ての単語又は文字に対して重み処理を行い、各単語又は文字の重みスコアリストを取得して重みスコアリストを格納する。

具体的には、一実施形態では、別々の単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも１つの項目に基づいて、重み処理が実行されるが、これに限定されない。例えば、他の実施形態では、他の条件を設定することによって重み処理を実行してもよい。具体的に、本実施形態では、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か、及び数であるか否かの中の各項目に重みスコアをプリセットすることができる。単語又は文字が１つ以上の上記項目と一致する場合、別々の重みスコアが単語又は文字に割り当てられ、単語又は文字の最終重みスコアを得るように加算処理が実行される。最終重みスコアは、重みスコアリストに記録される。具体的には、単語又は文字の重みスコアを更新するように、大規模データベース内の情報に従って単語又は文字の重みスコアを更新することができる。更新された単語又は文字の重みスコアは、重みスコアリストに記録される。

第１表示ユニット６６２は、最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するために使用される。

受信ユニット６８１は、強調表示された単語又は文字のためのトリガ信号を受信するために使用される。

第２表示ユニット６８２は、トリガ信号に応じて強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するために使用される。

第３テキスト処理ユニット６８３は、選択信号を受信し、強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るために使用される。

本実施形態では、ユーザーは、言語ボタンをトリガし、ユーザーが認識しようとする音声の言語を選択してもよい。例えば、言語は、中国語（標準語や、広東語、北東部、四川省などの地元の方言）、英語、フランス語、ドイツ語、及び韓国語などであり得る。それにより、音声処理装置６０は、受信された様々な言語の音声情報を認識することが可能になる。

音声処理装置６０の音声認識モジュール６４は、クラウドサーバーと通信する。音声処理装置６０は、音声情報を複数のテキスト情報に変換する際に、クラウドサーバー内に格納されている大規模データベースから音声情報に関連する単語又は文字を取得して複数のテキスト情報を形成する。具体的には、大規模データベースは、大規模データベース内のシソーラスをより豊富にするように、新聞、雑誌、及びウェブサイトのすべての情報を記録する。当然のことながら、当業者であれば、音声情報に関連する単語又は文字は音声処理装置６０に直接格納されてもよいことを理解する。

本実施形態の音声処理装置６０における各機能ユニットの具体的な機能については、上記図１〜図６に示されている実施形態で説明した具体的な説明を参照することとし、重複する詳細な説明を省略する。

本発明の実施形態により提供される音声処理装置６０によれば、ユーザーは、音声情報が認識された後に表示されたテキスト情報における単語又は文字をクリックすることによって選択及び置換し、選択されたテキスト情報を得ることができるので、選択されたテキスト情報は受信された音声情報と一致することが保証される。それにより、音声処理の精度及び利便性がさらに向上し、ユーザーに優れた体験効果が提供される。

本明細書における各実施形態は漸進的に記載されていることに留意されたい。各実施形態は他の実施形態との相違点に焦点を合わせており、様々な実施形態間の同じ又は類似の部分は互いに参照され得る。装置の実施形態については、対応する方法の実施形態と実質的に同様であるので、説明は比較的単純であり、関連部分は方法の実施形態の一部で説明される。

なお、本明細書では、第１及び第２の用語などの関係用語は、エンティティ又は操作間のそのような実際の関係又は順序を必ずしも要求又は暗示することなく、単にエンティティ又は操作を別のエンティティ又は操作から区別するために使用される。さらに、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｃｏｍｐｒｉｓｅ）」という用語又はそれらの他の変形は、一連の要素を含むプロセス、方法、物品又は装置がそれらの要素だけでなく、明示的に列挙されていない要素又はそのようなプロセス、方法、物品又は装置に固有の他の要素も含むように非排他的な包含を含むことを意図する。更なる制限がない場合、「〜を含む（ｉｎｃｌｕｄｉｎｇａ．．．）」という文によって定義される要素は、その要素を含むプロセス、方法、物品又は装置における更なる要素の存在を排除するものではない。

一般的な技術者は、実施形態のステップの全部又は一部をハードウェアによって達成することができ、又はプログラムによって関連ハードウェアを指示することによって達成することができる。プログラムは、コンピューター可読記憶媒体に格納されてもよく、記憶媒体は、読み出し専用メモリ、ディスク又はＣＤなどであってもよい。

上記は本発明の好ましい実施形態にすぎず、本発明の形態を限定するものではない。本発明を好ましい実施形態を参照して説明したが、本発明を限定することを意図するものではない。当業者であれば、本発明の技術的解決策の範囲から逸脱することなく、上記に開示された技術内容を使用することにより、同等の変形の同等の実施形態としてわずかな変更又は修正を行うことができる。本発明の技術的解決策の範囲から逸脱することなく、本発明の技術的詳細に従って上記の実施形態に対して任意の単純な修正、同等の変形及び修正を行うことは、依然として本発明の技術的解決策の範囲内である。

Claims

プロセッサーによる音声処理方法であって、前記方法は、
音声情報を受信するステップと、
前記音声情報を複数のテキスト情報に変換するように、前記音声情報を認識するステップと、
少なくとも１つの前記テキスト情報を表示するステップと、
選択されたテキスト情報に応じて応答するように、選択信号を受信するステップとを含み、
選択されたテキスト情報に応じて応答するように、選択信号を受信する前記ステップは、
前記テキスト情報において選択されたテキストを取得するステップと、
選択されたテキスト情報を得るように、前記選択されたテキストをプリセット規則に従ってソートするステップとを含む、ことを特徴とする音声処理方法。
少なくとも１つの前記テキスト情報を表示する前記ステップは、
同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較するステップと、
最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算するステップと、
最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するステップとを含む、ことを特徴とする請求項１に記載の方法。
少なくとも１つの前記テキスト情報を表示する前記ステップは、
強調表示された単語又は文字のためのトリガ信号を受信するステップと、
前記トリガ信号に応じて、前記強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するステップと、
前記選択信号を受信し、前記強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るステップとを更に含む、ことを特徴とする請求項２に記載の方法。
単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも１つの項目に基づいて、単語又は文字に対して重み処理を実行する、ことを特徴とする請求項２に記載の方法。
音声処理装置であって、前記装置は、
音声情報を受信するための受信モジュールと、
前記音声情報を複数のテキスト情報に変換するように前記音声情報を認識するための音声認識モジュールと、
少なくとも１つの前記テキスト情報を表示するための表示モジュールと、
選択されたテキスト情報に応じて応答するように、選択信号を受信するためのテキスト入力モジュールとを含み、
前記テキスト入力モジュールは、
前記テキスト情報において選択されたテキストを取得するための取得ユニットと、
選択されたテキスト情報を得るように、前記選択されたテキストをプリセット規則に従ってソートするための第１テキスト処理ユニットとを含む、ことを特徴とする音声処理装置。
前記表示モジュールは、
同じ音声によって認識された異なる単語又は文字を得るように複数のテキスト情報を比較し、最も高い重みスコアを有する単語又は文字を選択するように単語又は文字の重みスコアをそれぞれ計算するための第２テキスト処理ユニットと、
最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示するための第１表示ユニットとを含む、ことを特徴とする請求項５に記載の音声処理装置。
前記テキスト入力モジュールは、
強調表示された単語又は文字のためのトリガ信号を受信するための受信ユニットと、
前記トリガ信号に応じて、前記強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示するための第２表示ユニットと、
前記選択信号を受信し、前記強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得るための第３テキスト処理ユニットとを含む、ことを特徴とする請求項６に記載の音声処理装置。
単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも１つの項目に基づいて、単語又は文字に対して重み処理を実行する、ことを特徴とする請求項６に記載の音声処理装置。
端末であって、
プロセッサーと、
前記プロセッサーと通信可能に接続され、前記プロセッサーによって実行されると前記端末に、
音声情報を受信すること、
前記音声情報を複数のテキスト情報に変換するように、前記音声情報を認識すること、
少なくとも１つの前記テキスト情報を表示すること、及び
選択されたテキスト情報に応じて応答するように、選択信号を受信することを実行させるためのソフトウェアプログラムを格納した前記プロセッサー読み取り可能なメモリとを含み、
前記メモリは、前記プロセッサーによって実行されると前記端末に、
前記テキスト情報において選択されたテキストを取得すること、及び
選択されたテキスト情報を得るように、前記選択されたテキストをプリセット規則に従ってソートすることを行わせる指示を更に格納する、ことを特徴とする端末。
前記メモリは、前記プロセッサーによって実行されると前記端末に、
同じ音声で認識された異なる単語又は文字を得るように、複数のテキスト情報を比較すること、
最も高い重みスコアを有する単語又は文字を選択するように、単語又は文字の重みスコアをそれぞれ計算すること、及び
最も高い重みスコアを有する全ての単語又は文字を含むテキスト情報を表示し、最も高い重みスコアを有する単語又は文字を強調表示することを行わせる指示を更に格納する、ことを特徴とする請求項９に記載の端末。
前記メモリは、前記プロセッサーによって実行されると前記端末に、
強調表示された単語又は文字のためのトリガ信号を受信すること、
前記トリガ信号に応じて、前記強調表示された単語又は文字と同じ音声によって認識された単語又は文字を表示すること、及び
前記選択信号を受信し、前記強調表示された単語又は文字を選択された単語又は文字に置換し、選択されたテキスト情報を得ることを行わせる指示を更に格納する、ことを特徴とする請求項１０に記載の端末。
単語又は文字の重みスコアを得るように、単語又は文字の出現頻度、出現時間、情報源の信頼性、常用語であるか否か、方言であるか否か及び数であるか否かの中の少なくとも１つの項目に基づいて、単語又は文字に対して重み処理を実行する、ことを特徴とする請求項１０に記載の端末。