JP2019537041A

JP2019537041A - オーディオ信号をテキストにリアルタイムで文字起こしするためのシステムおよび方法

Info

Publication number: JP2019537041A
Application number: JP2018568243A
Authority: JP
Inventors: シーロンリー
Original assignee: ベイジンディディインフィニティテクノロジーアンドディベロップメントカンパニーリミティッド
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2019-12-19
Anticipated expiration: 2037-04-24
Also published as: AU2017411915A1; AU2020201997B2; US20190130913A1; JP6918845B2; EP3461304A1; AU2020201997A1; WO2018195704A1; AU2017411915B2; SG11201811604UA; EP3461304A4; TW201843674A; CN109417583A; CN109417583B; CA3029444C; CA3029444A1

Abstract

オーディオ信号をテキストにリアルタイムに文字起こしするためのシステムおよび方法が開示される。オーディオ信号は、第１の音声信号および第２の音声信号を含む。本方法は、オーディオ信号を受信するためのセッションを確立することと、第１の音声信号を、確立されたセッションを通じて受信することと、第１の音声信号を、音声セグメントの第１のセットに分割することと、音声セグメントの第１のセットを、テキストの第１のセットに文字起こしすることと、音声セグメントの第１のセットが文字起こしされている間に、第２の音声信号を受信することとを含むことができる。【選択図】図１

Description

本開示は、音声認識に関し、より詳細には、音声等のオーディオ信号をテキストに文字起こしし、テキストをサブスクライバ（ｓｕｂｓｃｒｉｂｅｒ）にリアルタイムで配信するためのシステムおよび方法に関する。

自動音声認識（ＡＳＲ）システムを用いて、音声をテキストに文字起こしすることができる。文字起こしされたテキストは、更なる解析のために、コンピュータ・プログラムまたは人物によってサブスクライブすることができる。例えば、ユーザのコール（ｃａｌｌ）からＡＳＲ文字起こしされたテキストは、オンライン配車プラットフォームのコール・センターによって利用することができ、それによって、タクシーまたは自家用車をユーザに派遣する効率を改善するために、コールをより効率的に解析することができる。

従来のＡＳＲシステムは、文字起こしされたテキストを生成するために音声認識を実行することができる前に、音声全体が受信されることを必要とする。したがって、長い音声の文字起こしはリアルタイムで行うことがほとんどできない。例えば、オンライン配車プラットフォームのＡＳＲシステムは、コールが終了するまでコールを記録し続け、その後、記録されたコールの文字起こしを開始することができる。

本開示の実施形態は、音声をテキストに文字起こしし、テキストをサブスクライバにリアルタイムに配信する、改善された文字起こしシステムおよび方法を提供する。

１つの態様において、本開示は、オーディオ信号をテキストに文字起こしするための方法を対象とし、オーディオ信号は第１の音声信号および第２の音声信号を含む。本方法は、オーディオ信号を受信するためのセッションを確立することと、第１の音声信号を、確立されたセッションを通じて受信することと、第１の音声信号を、音声セグメントの第１のセットに分割することと、音声セグメントの第１のセットを、テキストの第１のセットに文字起こしすることと、音声セグメントの第１のセットが文字起こしされている間に、第２の音声信号を受信することとを含むことができる。

別の態様において、本開示は、オーディオ信号を音声テキストに文字起こしするための音声認識システムを対象とし、オーディオ信号は第１の音声信号および第２の音声信号を含む。音声認識システムは、オーディオ信号を受信するためのセッションを確立し、第１の音声信号を、確立されたセッションを通じて受信するように構成された通信インターフェースと、第１の音声信号を、音声セグメントの第１のセットに分割するように構成された分割ユニットと、音声セグメントの第１のセットを、テキストの第１のセットに文字起こしするように構成された文字起こしユニットとを備えることができ、通信インターフェースは、音声セグメントの第１のセットが文字起こしされている間に、第２の音声信号を受信するように更に構成される。

別の態様において、本開示は、非一時的コンピュータ可読媒体を対象とする。コンピュータ可読媒体に記憶されたコンピュータ命令は、プロセッサによって実行されると、オーディオ信号をテキストに文字起こしするための方法を行うことができ、オーディオ信号は第１の音声信号および第２の音声信号を含む。本方法は、オーディオ信号を受信するためのセッションを確立することと、第１の音声信号を、確立されたセッションを通じて受信することと、第１の音声信号を、音声セグメントの第１のセットに分割することと、音声セグメントの第１のセットを、テキストの第１のセットに文字起こしすることと、音声セグメントの第１のセットが文字起こしされている間に、第２の音声信号を受信することとを含むことができる。

上記の包括的な説明および以下の詳細な説明の双方が例示的で説明的なものにすぎず、特許請求される本発明を限定するものではないことが理解されよう。

本開示のいくつかの実施形態による、音声認識システムの概略図である。本開示のいくつかの実施形態による、音声ソースおよび音声認識システム間の例示的な接続を示す図である。本開示のいくつかの実施形態による、音声認識システムのブロック図である。本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセスのフローチャートである。本開示のいくつかの実施形態による、文字起こしされたテキストをサブスクライバに配信するための例示的なプロセスのフローチャートである。本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセスのフローチャートである。

ここで、例示的な実施形態が詳細に参照される。例示的な実施形態の例は添付の図面に示されている。可能な限り、同じ参照符号が図面全体にわたって同じまたは類似のパーツを指すのに用いられる。

図１は、本開示のいくつかの実施形態による、音声認識システムの概略図を示す。図１に示されるように、音声認識システム１００は、音声ソース１０１からオーディオ信号を受信し、オーディオ信号を音声テキストに文字起こしすることができる。音声ソース１０１は、マイクロフォン１０１ａ、電話１０１ｂ、または通話の記録等のオーディオ信号を受信および記録するスマート・デバイス１０１ｃ（スマート・フォン、タブレット等）上のアプリケーションを含むことができる。図２は、本開示のいくつかの実施形態による、音声ソース１０１および音声認識システム１００間の例示的な接続を示す。

１つの実施形態において、スピーカー（ｓｐｅａｋｅｒ）が会議または講義における音声を与えることができ、音声はマイクロフォン１０１ｂによって記録することができる。音声は、リアルタイムで、または音声が終了し完全に記録された後、音声認識システム１００にアップロードすることができる。次に、音声は、音声認識システム１００によって音声テキストに文字起こしすることができる。音声認識システム１００は、音声テキストを自動的に保存し、かつ／または音声テキストをサブスクライバに配信することができる。

別の実施形態において、ユーザは、電話１０１ｂを用いて通話することができる。例えば、ユーザは、オンライン配車プラットフォームのコール・センターに電話をかけ、タクシーまたは自家用車を要求することができる。図２に示されているように、オンライン配車プラットフォームは、様々なサービスをクライアントに提供するために音声サーバ（例えば、オンライン配車プラットフォームにおけるサーバ）によって用いられる通信プロトコルである、メディア・リソース制御プロトコル・バージョン２（ＭＲＣＰｖ２）をサポートすることができる。ＭＲＣＰｖ２は、例えば、セッション開始プロトコル（ＳＩＰ）およびリアルタイム・プロトコル（ＲＴＰ）を用いることによって、クライアントおよびサーバ間の制御セッションおよびオーディオ・ストリームを確立することができる。すなわち、通話のオーディオ信号は、ＭＲＣＰｖ２に従って音声認識システム１００によってリアルタイムに受信することができる。

音声認識システム１００によって受信されるオーディオ信号は、文字起こしされる前に前処理することができる。いくつかの実施形態では、オーディオ信号のオリジナル・フォーマットは、音声認識システム１００と互換性のあるフォーマットに変換することができる。加えて、通話のデュアル・オーディオ・トラック・レコーディングは、２つのシングル・オーディオ・トラック信号に分割することができる。例えば、マルチメディア・フレームワークＦＦｍｐｅｇを用いて、デュアル・オーディオ・トラック・レコーディングを、パルス符号変調（ＰＣＭ）フォーマットにおける２つのシングル・オーディオ・トラック信号に変換することができる。

更に別の実施形態では、ユーザは、スマート・デバイス１０１ｃにおけるモバイル・アプリケーション（ＤｉＤｉアプリ等）を通じて、ボイス・メッセージを記録するか、またはオンライン配車プラットフォームのカスタマー・サービスとのボイス・チャットを行うことができる。図２に示されるように、モバイル・アプリケーションは、ボイス・メッセージまたはボイス・チャットのオーディオ信号を処理するためのボイス・ソフトウェア開発キット（ＳＤＫ）を含むことができ、処理されたオーディオ信号は、例えば、ハイパーテキスト転送プロトコル（ＨＴＴＰ）に従って、オンライン配車プラットフォームの音声認識システム１００に送信することができる。アプリケーションのＳＤＫは、オーディオ信号を、適応マルチ・レート（ａｍｒ）またはブロード・ボイス３２（ｂｖ３２）フォーマットにおけるオーディオ・ファイルに更に圧縮することができる。

図１に戻って参照すると、文字起こしされた音声テキストは、ストレージ・デバイス１０３に記憶することができ、それによって、記憶された音声テキストを後に取り出し、更に処理することができる。ストレージ・デバイス１０３は、音声認識システム１００の内部にあっても外部にあってもよい。ストレージ・デバイス１０３は、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読取り専用メモリ（ＰＲＯＭ）、読取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュ・メモリ、または磁気もしくは光ディスク等の、任意のタイプの揮発性もしくは不揮発性メモリ・デバイス、またはそれらの組み合わせとして実施することができる。

音声認識システム１００は、文字起こしされたテキストを、自動的にまたは要求時に、１つまたは複数のサブスクライバ１０５に配信することもできる。サブスクライバ１０５は、テキストをサブスクライブする人物、またはテキストを更に処理するように構成されたデバイス（コンピュータ・プログラムを含む）を含むことができる。例えば、図１に示すように、サブスクライバ１０５は、第１のユーザ１０５ａ、第２のユーザ１０５ｂおよびテキスト処理デバイス１０５ｃを含むことができる。サブスクライバは、異なる時点において、文字起こしされたテキストをサブスクライブすることができる。これについては更に論考される。

いくつかの実施形態では、音声は、しばらく続く長い音声である場合があり、音声のオーディオ信号は、音声が依然として進行中である間に、音声認識システム１００に断片的に送信することができる。オーディオ信号は、複数の音声信号を含むことができ、複数の音声信号は連続して送信することができる。いくつかの実施形態では、音声信号は、一定の期間中の音声の一部分、または音声の一定のチャネルを表すことができる。音声信号はまた、電話の変換、動画、ＴＶの一話、楽曲、報道、プレゼンテーション、討論等の、文字起こし可能なコンテンツを表す任意のタイプのオーディオ信号であり得る。例えば、オーディオ信号は、第１の音声信号および第２の音声信号を含む場合があり、この第１の音声信号および第２の音声信号は、連続して送信することができる。第１の音声信号は音声の第１の部分に対応し、第２の音声信号は音声の第２の部分に対応する。別の例として、第１の音声信号および第２の音声信号は、それぞれ、音声の左チャネルおよび右チャネルのコンテンツに対応する。

図３は、本開示のいくつかの実施形態による、音声認識システム１００のブロック図を示す。

音声認識システム１００は、通信インターフェース３０１、識別ユニット３０３、文字起こしユニット３０５、配信インターフェース３０７およびメモリ３０９を備えることができる。いくつかの実施形態では、識別ユニット３０３および文字起こしユニット３０５は、音声認識システム１００のプロセッサの構成要素であってもよい。これらのモジュール（および任意の対応するサブモジュールまたはサブユニット）は、他の構成要素と共に用いるように設計された機能ハードウェアユニット（例えば、集積回路の一部分）であってもよく、または特定の機能を実行する（コンピュータ可読媒体上に記憶された）プログラムの一部であってもよい。

通信インターフェース３０１は、オーディオ信号を受信するためのセッションを確立することができ、確立されたセッションを通じてオーディオ信号の音声信号（例えば、第１の音声信号および第２の音声信号）を受信することができる。例えば、クライアント端末は、セッションを確立することの要求を通信インターフェース３０１に送信することができる。ＭＲＣＰｖ２およびＳＩＰに従ってセッションが確立されるとき、音声認識システム１００は、タグ（「Ｔｏ」タグ、「Ｆｒｏｍ」タグ、および「コールＩＤ」タグ等）によってＳＩＰセッションを識別することができる。ＨＴＴＰに従ってセッションが確立されるとき、音声認識システム１００は、汎用一意識別子（ＵＵＩＤ）によって生成された特有の（ｕｎｉｑｕｅ）トークンをセッションに割り当てることができる。セッションのためのトークンは、セッションが完了した後に解放することができる。

通信インターフェース３０１は、オーディオ信号の送信中のパケット損失率を監視することができる。パケット損失率は、ネットワーク接続安定性の指標である。パケット損失率が一定の値（例えば、２％）よりも高いとき、音声ソース１０１と音声認識システム１００との間のネットワーク接続が安定していないことが示唆される場合があり、音声の受信オーディオ信号は、何らかの再構成または更なる解析が可能になるには過度に多くのデータを損失している場合がある。したがって、通信インターフェース３０１は、パケット損失率が所定のしきい値（例えば、２％）よりも高いときにセッションを終了させ、音声ソース１０１にエラーを報告することができる。いくつかの実施形態では、セッションが所定の期間（例えば、３０秒）にわたってアイドルとなった後、音声認識システム１００は、スピーカーが音声を終了したと判断することができ、次に、通信インターフェース３０１はセッションを終了させることができる。セッションは、音声ソース１０１（すなわち、スピーカー）によって手動で終了させることもできることが予期される。

通信インターフェース３０１は、音声信号の各々が受信される時点を更に判断することができる。例えば、通信インターフェース３０１は、第１の音声信号が受信される第１の時点および第２の音声信号が受信される第２の時点を判断することができる。

通信インターフェース３０１によって受信されるオーディオ信号は、文字起こしユニット３０５によって文字起こしされる前に更に処理することができる。各音声信号は、ボイス認識システム１００が一度に文字起こしするには過度に長いいくつかの文を含む場合がある。このため、識別ユニット３０３は、受信したオーディオ信号を音声セグメントに分割することができる。例えば、オーディオ信号の第１の音声信号および第２の音声信号は、それぞれ、音声セグメントの第１のセットおよび第２のセットに更に分割することができる。いくつかの実施形態では、受信したオーディオ信号を分割するために、ボイス・アクティビティ検出（ＶＡＤ）を用いることができる。例えば、ＶＡＤは、第１の音声信号を、文または単語に対応する音声セグメントに分けることができる。ＶＡＤは、第１の音声信号の非音声セクションを識別し、この非音声セクションを文字起こしから更に除外し、システムの計算およびスループットを節減することもできる。いくつかの実施形態では、第１の音声信号および第２の音声信号を組み合わせて、連続した長い音声信号にすることができ、次にこれを分割することができる。

文字起こしユニット３０５は、音声信号の各々について音声セグメントをテキストのセットに文字起こしすることができる。例えば、第１の音声信号および第２の音声信号の音声セグメントの第１のセットおよび第２のセットは、それぞれ、テキストの第１のセットおよび第２のセットに文字起こしすることができる。音声セグメントは、連続してまたは並列に文字起こしすることができる。いくつかの実施形態では、自動音声認識（ＡＳＲ）を用いて音声セグメントを文字起こしすることができ、それによって、音声信号は、テキストとして記憶し、更にテキストとして処理することができる。

オーディオ信号をテキストに単に変換するだけでなく、文字起こしユニット３０５は、スピーカーの特定のボイスがシステムのデータベースに記憶されている場合に、スピーカーのアイデンティティを更に識別することができる。文字起こしされたテキストおよびスピーカーのアイデンティティは、更なる処理のために識別ユニット３０３に返送することができる。

更に、例えば、ユーザがオンライン配車プラットフォームに電話をかけるとき、音声認識システム１００は、通話のオーディオ信号を文字起こしし、ユーザのアイデンティティを更に識別することができる。次に、音声認識システム１００の識別ユニット３０３は、文字起こしされたテキストにおけるキーワードを識別し、キーワードをハイライトし、かつ／またはキーワードに関連付けられたその他の情報をオンライン配車プラットフォームのカスタマー・サービスに提供することができる。いくつかの実施形態では、移動の出発地ロケーションおよび目的地ロケーションのためのキーワードが文字起こしされたテキストにおいて検出されるとき、可能な移動ルート、およびルートごとの時間を提供することができる。したがって、カスタマー・サービスは、関連情報を手動で収集する必要がない場合がある。いくつかの実施形態では、ユーザの嗜好、履歴オーダー、頻繁に使用される目的地等の、ユーザに関連付けられた情報を識別し、プラットフォームのカスタマー・サービスに提供することができる。

第１の音声信号の音声セグメントの第１のセットが文字起こしユニット３０５によって文字起こしされている間、通信インターフェース３０１は、第２の音声信号を受信し続けることができる。音声信号（例えば、第１の音声信号および第２の音声信号）ごとに、セッション中にスレッドを確立することができる。例えば、第１の音声信号は、第１のスレッドを介して受信することができ、第２の音声信号は、第２のスレッドを介して受信することができる。第１の音声信号の送信が完了すると、第１のスレッドを解放するための応答を生成することができ、識別ユニット３０３および文字起こしユニット３０５は、受信した信号の処理を開始することができる。その間、第２の音声信号を受信するための第２のスレッドを確立することができる。同様に、第２の音声信号が完全に受信され、文字起こしのために送信されるとき、音声認識システム１００の通信インターフェース３０１は、別の音声信号を受信するための別のスレッドを確立することができる。

したがって、文字起こしを始めることができる前にオーディオ信号全体が受信されるまで待機する必要なく、受信した音声信号の処理は、到来する別の音声信号が受信される間に行うことができる。この特徴は、音声認識システム１００が音声をリアルタイムで文字起こしすることを可能にすることができる。

識別ユニット３０３および文字起こしユニット３０５は、別個の処理ユニットとして示されているが、ユニット３０３および３０５は、プロセッサの機能構成要素とすることもできることが予期される。

メモリ３０９は、音声信号の音声テキストを連続して組み合わせ、組み合わされたテキストを、文字起こしされたテキストへの追加として記憶することができる。例えば、テキストの第１のセットおよび第２のセットは、組み合わせて記憶することができる。更に、メモリ３０９は、組み合わされたテキストに対応する音声信号が受信されたときを示す、通信インターフェース３０１によって検出された時点に従って、組み合わされたテキストを記憶することができる。

オーディオ信号の音声信号の受信に加えて、通信インターフェース３０１は更に、サブスクライバから、オーディオ信号の文字起こしされたテキストをサブスクライブするための第１の要求を受信し、第１の要求が受信された時点を判断することができる。配信インターフェース３０７は、通信インターフェース３０１によって判断された時点に対応する文字起こしされたテキストのサブセットをサブスクライバに配信することができる。いくつかの実施形態では、通信インターフェース３０１は、サブスクライバから、文字起こしされたテキストの同じセットをサブスクライブするための複数の要求を受信することができ、要求の各々の時点が判断され、記録されることができる。配信インターフェース３０７はそれぞれ、サブスクライバの各々に、時点に対応する文字起こしされたテキストのサブセットを配信することができる。配信インターフェース３０７は、文字起こしされたテキストを、直接または通信インターフェース３０１を介してサブスクライバに配信することができることが予期される。

時点に対応する文字起こしされたテキストのサブセットは、開始からその時点までのオーディオ信号のコンテンツに対応する文字起こしされたテキストのサブセット、またはオーディオ信号のコンテンツの予め設定された期間に対応する文字起こしされたテキストのサブセットを含むことができる。例えば、サブスクライバは音声認識システム１００に接続され、通話が始まった２分後の時点に、通話をサブスクライブするための要求を送信することができる。配信インターフェース３０７は、サブスクライバ（例えば、図１における第１のユーザ１０５ａ、第２のユーザ１０５ｂおよび／またはテキスト処理デバイス１０５ｃ）に、通話の開始から２分の間の全てのコンテンツに対応するテキストのサブセット、またはその時点の前の所定の期間（例えば、その時点の前の１０秒間のコンテンツ）のみに対応するテキストのサブセットを配信することができる。テキストのサブセットは、その時点に対しほとんど近時の音声セグメントにも対応することができることが予期される。

いくつかの実施形態では、サブスクライブ後に、追加の配信を行うことができる。例えば、オーディオ信号が初めてサブスクライブされるときに受信した要求に従ってテキストのサブセットがサブスクライバに配信された後、配信インターフェース３０７は、文字起こしされたテキストをサブスクライバに継続して配信することができる。１つの実施形態では、通信インターフェース３０１は、サブスクライバから、オーディオ信号の文字起こしされたテキストを更新するための第２の要求を受信するまで、更なるテキストを配信しない場合がある。次に、通信インターフェース３０１は、第２の要求に従って、最も近時に文字起こしされたテキストをサブスクライバに配信することができる。例えば、サブスクライバは、グラフィック・ユーザ・インターフェース（ＧＵＩ）によって表示されたリフレッシュボタンをクリックして、第２の要求を通信インターフェース３０１に送信し、配信インターフェース３０７は、新たに文字起こしされたテキストが存在するか否かを判断し、新たに文字起こしされたテキストをサブスクライバに送信することができる。別の実施形態において、配信インターフェース３０７は、最も近時に文字起こしされたテキストをサブスクライバに自動的にプッシュすることができる。

文字起こしされたテキストが受信された後、サブスクライバは、テキストを更に処理し、テキストに関連付けられた情報を抽出することができる。上記で論考したように、サブスクライバは、図１のテキスト処理デバイス１０５ｃとすることができ、テキスト処理デバイス１０５ｃは、文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含むことができる。

図４および図５を参照して、オーディオ信号をテキストに文字起こしし、文字起こしされたテキストをハイパーテキスト転送プロトコル（ＨＴＴＰ）に従って配信するためのプロセスが更に説明される。

図４は、本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセス４００のフローチャートである。プロセス４００は、オーディオ信号を文字起こしするために音声認識システム１００によって実施することができる。

フェーズ４０１において、音声ソース１０１（例えば、スマート・フォン上のアプリケーションのＳＤＫ）は、音声セッションを確立するための要求を音声認識システム１００の通信インターフェース３０１に送信することができる。例えば、セッションは、ＨＴＴＰに従って確立することができ、したがって、要求は、例えば、「ＨＴＴＰＧＥＴ」コマンドによって送信することができる。「ＨＴＴＰＧＥＴ」要求を受信する通信インターフェース３０１は、例えば、ＨＴＴＰリバース・プロキシとすることができる。リバース・プロキシは、音声認識システム１００の他のユニットからリソースを取り出し、リソースを、リバース・プロキシ自体から発信されたかのように音声ソース１０１に返すことができる。次に、通信インターフェース３０１は、要求を、例えばＦａｓｔＣＧＩを介して識別ユニット３０３に転送することができる。ＦａｓｔＣＧＩは、プログラムをサーバに結び付けるためのプロトコルである。要求を転送するための他の適切なプロトコルを用いることができることが予期される。セッションを確立するための要求が受信された後、識別ユニット３０３は、メモリ３０９において、セッションのためのキューを生成することができ、セッションを示すためのトークンが通信インターフェース３０１のために確立される。いくつかの実施形態では、トークンは、ＵＵＩＤによって生成することができ、本明細書に記載されるプロセス全体にわたって大域的に特有のアイデンティティである。通信インターフェース３０１がトークンを受信した後、ＨＴＴＰ応答２００（「ＯＫ」）がソース１０１に送信され、セッションが確立されたことを示す。ＨＴＴＰ応答２００は、要求／コマンドの処理に成功したことを示す。

セッションが確立された後、フェーズ４０３において音声認識が初期化される。フェーズ４０３において、ソース１０１は、通信インターフェース３０１に、音声認識を初期化するためのコマンドおよびオーディオ信号の音声信号を送信することができる。コマンドは、セッションを示すためのトークンを搬送することができ、音声信号は、所定の期間（例えば、１６０ミリ秒）よりも持続することができる。音声信号はＩＤ番号を含むことができ、これは、到来する音声信号の各々についてインクリメントする。コマンドおよび音声信号は、例えば、「ＨＴＴＰＰＯＳＴ」コマンドによって送信することができる。同様に、通信インターフェース３０１は、コマンドおよび音声信号を、「ＦａｓｔＣＧＩ」を介して識別ユニット３０３に転送することができる。次に、識別ユニット３０３は、トークンをチェックし、音声信号のパラメータを検証することができる。パラメータは、音声信号が受信される時点、ＩＤ番号等を含むことができる。いくつかの実施形態では、通常連続している音声信号のＩＤ番号を検証して、パケット損失率を判断することができる。上記で論考したように、音声信号の送信が完了しているとき、音声信号を送信するためのスレッドを解放することができる。例えば、受信した音声信号が検証されるとき、識別ユニット３０３は通信インターフェース３０１に通知することができ、通信インターフェース３０１は、音声信号が受信されたことを示すＨＴＴＰ応答２００を音声ソース１０１に送信することができ、対応するスレッドは解放されることができる。フェーズ４０３は、ループで実行することができ、それによって、オーディオ信号の全ての音声信号は、音声認識システム１００にアップロードすることができる。

フェーズ４０３はループで実行されているが、フェーズ４０５は、ループが終了するのを待機する必要なく、アップロードされたオーディオ信号を処理することができる。フェーズ４０５において、識別ユニット３０３は、受信した音声信号を音声セグメントに分割することができる。例えば、図４に示されるように、０．３秒〜５．７秒にわたって持続し、２．６秒〜２．８秒の非音声セクションを含む第１の音声信号は、ＭｏｄｅｌＶＡＤ技法等のＶＡＤを用いて音声セグメントの第１のセットに分割することができる。例えば、音声信号は、０．３秒〜２．６秒の第１のセグメントと、２．８秒〜５．７秒の第２のセグメントとに分けることができる。音声セグメントはテキストに文字起こしすることができる。例えば、第１のセグメントおよび第２のセグメントは、テキストの第１のセットおよび第２のセットに文字起こしすることができ、テキストの第１のセットおよび第２のセットは、識別ユニット３０３によって生成されたキューに記憶される。オーディオ信号から生成された全てのテキストは、オーディオ信号に対応する同じキューに記憶される。文字起こしされたテキストは、それらが受信された時点に従って記憶することができる。キューは、ＵＵＩＤによって一意に生成されたトークンに従って識別することができる。したがって、各オーディオ信号は、文字起こしされたテキストを記憶するための特有のキューを有する。文字起こしユニット３０５が受信された音声信号に対し作動している間、音声ソース１０１は、通信インターフェース３０１に、フィードバックを要求するコマンドを送信することができる。フィードバックは、例えば、音声の現在の長さ、オーディオ信号の文字起こしの進行、オーディオ信号のパケット損失率等に関する情報を含むことができる。情報はスピーカーに表示することができ、それによって、スピーカーは、必要な場合に音声を調整することができる。例えば、音声を文字起こしする進行が所定の期間にわたって音声自体から遅れている場合、スピーカーは進行を通知されることができ、それによってスピーカーは音声の速度を調整することができる。コマンドは、同様に、セッションを識別するためのトークンを搬送することができ、通信インターフェース３０１はコマンドを識別ユニット３０３に転送することができる。コマンドが受信された後、識別ユニット３０３は、トークンに対応するフィードバックを取り出し、これを通信インターフェース３０１に送信し、更に音声ソース１０１に送信することができる。

フェーズ４０７において、セッションを終了させるためのコマンドを音声ソース１０１から発行することができる。同様に、コマンドは、トークンと共に、通信ユニット３０１を介して識別ユニット３０３に送信される。次に、識別ユニット３０３は、セッションをクリアし、セッションのためのリソースを解放することができる。セッションが終了したことを示す応答を通信インターフェース３０１に返送することができ、通信インターフェース３０１は更に、ＨＴＴＰ応答２００（「ＯＫ」）を生成し、これを音声ソース１０１に送信する。いくつかの他の実施形態では、セッションは、パケット損失率が高いとき、または十分長い期間にわたってアイドルであるときにも終了させることができる。例えば、セッションは、例えば、パケット損失率が２％よりも高いか、またはセッションが３０秒にわたってアイドルである場合に終了させることができる。

ＨＴＴＰ応答のうちの１つまたは複数が「ＯＫ」ではなくエラーである場合があることが予期される。特定のプロシージャが失敗したことを示すエラーを受信したとき、この特定のプロシージャを繰り返すことができるか、またはセッションを終了させることができ、エラーをスピーカーおよび／または音声認識システム１００の管理者に報告することができる。

図５は、本開示のいくつかの実施形態による、文字起こしされたテキストをサブスクライバに配信するための例示的なプロセス５００のフローチャートである。プロセス５００は、図５のフローチャートに従って文字起こしされたテキストを配信するために音声認識システム１００によって実施することができる。

フェーズ５０１において、音声認識システム１００は、複数の音声を同時に処理することができるため、メモリ３０９においてメッセージ・キューを確立することができ、それによって文字起こしユニット３０５は、音声のトピックをメッセージ・キューに発行することができる。そして、トピックの各々のためのサブスクライバキューもメモリ３０９において確立することができ、それによって、特定のトピックのサブスクライバは、それぞれのサブスクライバキューにおいてリスト化することができ、音声テキストは、文字起こしユニット３０５によってそれぞれのサブスクライバキューにプッシュすることができる。メモリ３０９は、音声のトピックの発行に成功したか否かおよび／または音声テキストのプッシュに成功したか否かを示す応答を文字起こしユニット３０５に返すことができる。

フェーズ５０３において、サブスクライバ１０５は、通信インターフェース３０１に、現在アクティブな音声をクエリするための要求を送信することができる。上記で説明したように、要求は、「ＨＴＴＰＧＥＴ」コマンドによって通信インターフェース３０１に送信することができる。そして、要求は、例えばＦａｓｔＣＧＩによって配信インターフェース３０７に転送され、次に、配信インターフェース３０７は、メモリ３０９のメッセージ・キュー内に記憶されたアクティブな音声のトピックをクエリすることができる。したがって、メモリ３０９は、現在アクティブな音声のトピックを、音声の関連情報と共に、通信インターフェース３０１を介してサブスクライバ１０５に返すことができる。関連情報は、例えば、音声の識別子および記述を含むことができる。通信インターフェース３０１は、ＨＴＴＰ応答２００（「ＯＫ」）をサブスクライバ１０５に送信することもできる。

フェーズ５０５において、現在アクティブな音声のトピックおよび関連情報をサブスクライバ１０５に表示することができ、サブスクライバ１０５は識別子を有する音声をサブスクライブすることができる。音声をサブスクライブするための要求を通信インターフェース３０１に送信することができ、次に配信インターフェース３０７に転送することができる。配信インターフェース３０７は、要求のパラメータを検証することができる。例えば、パラメータは、チェックコード、サブスクライバ１０５の識別子、音声の識別子、音声のトピック、サブスクライバ１０５が要求を送信する時点等を含むことができる。

配信ユニット３０７が、サブスクライバ１０５が新たなサブスクライバであると判断する場合、要求に対応する音声がサブスクライブされることができ、サブスクライバ１０５はメモリ３０９のサブスクライバキュー内に更新されることができる。次に、サブスクライブが成功したことを示す応答を配信インターフェース３０７に送信することができ、配信インターフェース３０７は、通信インターフェース３０１に、サブスクライバの識別子、音声の現在のスケジュール、および／または音声のサブスクライバ数等の、音声に関する情報を送信することができる。通信インターフェース３０１は、ＨＴＴＰ応答２００（「ＯＫ」）を生成し、上記の情報を、ＨＴＴＰ応答と共にサブスクライバ１０５に返送することができる。

配信ユニット３０７が、サブスクライバ１０５が既存のサブスクライバであると判断する場合、配信インターフェース３０７は、情報を通信インターフェース３０１に直接送信することができる。

フェーズ５０７において、ＨＴＴＰ応答２００（「ＯＫ」）がサブスクライバ１０５によって受信された後、サブスクライバ１０５は、例えば、サブスクライバの識別子、セッションのトークン、および／または音声の現在のスケジュールに従って、テキストを取得するための要求を送信する。要求は、ＦａｓｔＣＧＩによって通信インターフェース３０１を介して配信インターフェース３０７に転送することができ、それによって、配信インターフェース３０７は文字起こしされたテキストにアクセスすることができる。配信インターフェース３０７は、任意の新たな文字起こしされたテキストをソース１０５に返送するか、または新たなテキストがない場合、「ヌル」信号を送信することができる。

最も近時に文字起こしされたテキストを、要求なしでサブスクライバ１０５に自動的にプッシュすることもできることが予期される。

いくつかの実施形態では、メッセージ・キューに記憶される音声のトピックが、所定の期間にわたって問い合わせされない場合、トピックは期限切れのトピックとしてクリアすることができる。

図６は、本開示のいくつかの実施形態による、オーディオ信号をテキストに文字起こしするための例示的なプロセス６００のフローチャートである。例えば、プロセス６００は、音声認識システム１００によって行うことができ、以下のように論考されるステップＳ６０１〜Ｓ６０９を含むことができる。

ステップＳ６０１において、音声認識システム１００は、オーディオ信号を受信するためのセッションを確立することができる。オーディオ信号は、第１の音声信号および第２の音声信号を含むことができる。例えば、第１の音声信号は、まず、メディア・リソース制御プロトコル・バージョン２またはハイパーテキスト転送プロトコルに従って受信することができる。音声認識システム１００は、オーディオ信号を受信するためのパケット損失率を更に監視し、パケット損失率が所定のしきい値よりも高いとき、セッションを終了させることができる。いくつかの実施形態では、パケット損失率が２％よりも高いとき、セッションは不安定であるとみなされ、終了させることができる。音声認識システム１００は、セッションが所定の期間にわたってアイドルであった後にセッションを終了させることもできる。例えば、セッションが３０秒間にわたってアイドルであった後、音声認識システム１００は、音声が終わったとみなし、セッションを終了させることができる。

ステップＳ６０３において、音声認識システム１００は、受信した第１の音声信号を、音声セグメントの第１のセットに分割することができる。いくつかの実施形態では、ＶＡＤは、第１の音声信号を音声セグメントに更に分割するために利用することができる。

ステップＳ６０５において、音声認識システム１００は、音声セグメントの第１のセットをテキストの第１のセットに文字起こしすることができる。いくつかの実施形態では、ＡＳＲを用いて音声セグメントを文字起こしすることができ、それによって第１の音声信号は、テキストとして記憶し、更に処理することができる。同じスピーカーの以前の音声がシステムのデータベースに記憶されている場合、スピーカーのアイデンティティも識別することができる。スピーカー（例えば、オンライン配車プラットフォームのユーザ）のアイデンティティは、ユーザの嗜好、履歴オーダー、頻繁に使用される目的地等の、ユーザに関連付けられた情報を取得するのに更に利用することができ、これによりプラットフォームの効率を改善することができる。

ステップＳ６０７において、音声セグメントの第１のセットがテキストの第１のセットに文字起こしされている間、音声認識システム１００は、第２の音声信号を更に受信することができる。いくつかの実施形態では、第１の音声信号は、セッション中に確立された第１のスレッドを通じて受信される。第１の音声信号が音声セグメントの第１のセットに分割された後、音声セグメントの第１のセットが文字起こしされている間、第１のスレッドを解放するための応答を送信することができる。第１のスレッドが解放されると、第２の音声信号を受信するための第２のスレッドを確立することができる。１つの音声信号を文字起こしし、次の信号を並列に受信することによって、オーディオ信号は、リアルタイムでテキストに文字起こしすることができる。同様に、音声認識システム１００は、第２の音声信号を、音声セグメントの第２のセットに分割することができ、次に音声セグメントの第２のセットをテキストの第２のセットに文字起こしすることができる。音声認識システム１００は更に、テキストの第１のセットおよび第２のセットを連続して組み合わせ、組み合わされたテキストを、文字起こしされたテキストへの追加として内部メモリまたは外部ストレージ・デバイスに記憶することができる。このように、オーディオ信号全体をテキストに文字起こしすることができる。

音声認識システム１００は、文字起こしされたテキストの更なる処理または解析を提供することができる。例えば、音声認識システム１００は、文字起こしされたテキストにおけるキーワードを識別し、キーワードをハイライトし、かつ／またはキーワードに関連付けられたその他の情報を提供することができる。いくつかの実施形態では、オーディオ信号は、オンライン配車プラットフォームへの通話から生成され、移動の出発地ロケーションおよび目的地ロケーションのためのキーワードが文字起こしされたテキストにおいて検出されるとき、可能な移動ルート、およびルートごとの時間を提供することができる。

ステップＳ６０９において、音声認識システム１００は、文字起こしされたテキストのサブセットをサブスクライバに配信することができる。例えば、音声認識システム１００は、サブスクライバから、オーディオ信号の文字起こしされたテキストをサブスクライブするための第１の要求を受信し、第１の要求が受信された時点を判断し、その時点に対応する文字起こしされたテキストのサブセットをサブスクライバに配信することができる。音声認識システム１００は更に、サブスクライバから、オーディオ信号の文字起こしされたテキストを更新するための第２の要求を受信し、サブスクライバに、第２の要求に従って、最も近時に文字起こしされたテキストを配信することができる。いくつかの実施形態では、最も近時に文字起こしされたテキストは、サブスクライバに自動的にプッシュすることもできる。いくつかの実施形態では、上記で説明した文字起こしされたテキストの追加の解析（例えば、キーワード、ハイライト、その他の情報）をサブスクライバに配信することもできる。

いくつかの実施形態では、サブスクライバは、文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを備えることができる算出デバイスとすることができる。様々なテキスト解析または処理ツールを用いて、音声のコンテンツを判断することができる。いくつかの実施形態では、サブスクライバは、テキストを異なる言語に更に翻訳することができる。テキストの解析は通常、計算量がより低く、このため、オーディオ信号を直接解析するよりもはるかに高速である。

本開示の別の態様は、実行されると、１つまたは複数のプロセッサに、上記で論考した方法を行わせる命令を記憶する非一時的コンピュータ可読媒体を対象とする。コンピュータ可読媒体は、揮発性または不揮発性、磁気、半導体、テープ、光、リムーバブル、非リムーバブル、または他のタイプのコンピュータ可読媒体もしくはコンピュータ可読ストレージ・デバイスを含むことができる。例えば、コンピュータ可読媒体は、開示されるように、コンピュータ命令が記憶されたストレージ・デバイスまたはメモリ・モジュールとすることができる。いくつかの実施形態では、コンピュータ可読媒体は、コンピュータ命令が記憶されたディスクまたはフラッシュ・ドライブとすることができる。

当業者には、開示されたなりすまし検出システムおよび関連方法に対し様々な変更および変形を行うことができることが明らかであろう。開示されたなりすまし検出システムおよび関連方法の明細書および実例を考慮した当業者には他の実施形態が明らかであろう。実施形態は、オンライン配車プラットフォームを例として用いて説明されたが、説明されたリアルタイム文字起こしシステムおよび方法は、任意の他の状況で生成されたオーディオ信号を文字起こしするのに応用することができる。例えば、説明されたシステムおよび方法は、歌詞、ラジオ／ＴＶ放送、プレゼンテーション、ボイス・メッセージ、会話等を文字起こしするのに用いることができる。

明細書および実施例は、単なる例示とみなされることが意図され、真の範囲は、以下の特許請求の範囲およびその均等物によって示される。

Claims

オーディオ信号をテキストに文字起こしするための方法であって、前記オーディオ信号は第１の音声信号および第２の音声信号を含み、前記方法は、
前記オーディオ信号を受信するためのセッションを確立するステップと、
前記第１の音声信号を、前記確立されたセッションを通じて受信するステップと、
前記第１の音声信号を、音声セグメントの第１のセットに分割するステップと、
前記音声セグメントの第１のセットを、テキストの第１のセットに文字起こしするステップと、
前記音声セグメントの第１のセットが文字起こしされている間に、前記確立されたセッションを通じて前記第２の音声信号を受信するステップと、
を含む、方法。
前記第２の音声信号を、音声セグメントの第２のセットに分割するステップと、
前記音声セグメントの第２のセットを、テキストの第２のセットに文字起こしするステップと、
を更に含む、請求項１に記載の方法。
前記テキストの第１のセットおよび第２のセットを連続して組み合わせ、前記組み合わされたテキストを、前記文字起こしされたテキストに対する追加として記憶するステップを更に含む、請求項２に記載の方法。
サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストをサブスクライブするための第１の要求を受信するステップと、
前記第１の要求が受信された時点を判断するステップと、
前記時点に対応する前記文字起こしされたテキストのサブセットを前記サブスクライバに配信するステップと、
を更に含む、請求項１に記載の方法。
前記サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストを更新するための第２の要求を更に受信するステップと、
前記第２の要求に従って、前記サブスクライバに、最も近時に文字起こしされたテキストを配信するステップと、
を更に含む、請求項４に記載の方法。
最も近時に文字起こしされたテキストを前記サブスクライバに自動的にプッシュするステップを更に含む、請求項４に記載の方法。
前記オーディオ信号を受信するための前記セッションを確立するステップは、
メディア・リソース制御プロトコル・バージョン２またはハイパーテキスト転送プロトコルに従って前記オーディオ信号を受信するステップを更に含む、請求項１に記載の方法。
前記オーディオ信号を受信するためのパケット損失率を監視するステップと、
前記パケット損失率が所定のしきい値よりも高いとき、前記セッションを終了させるステップと、
を更に含む、請求項１に記載の方法。
前記セッションが所定の期間にわたってアイドルであった後、前記セッションを終了させるステップを更に含む、請求項１に記載の方法。
前記サブスクライバは、前記文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含む、請求項４に記載の方法。
前記第１の音声信号は、前記セッション中に確立された第１のスレッドを通じて受信され、前記方法は、
前記音声セグメントの第１のセットが文字起こしされている間に、前記第１のスレッドを解放するための応答を送信するステップと、
前記第２の音声信号を受信するための第２のスレッドを確立するステップと、
を更に含む、請求項１に記載の方法。
オーディオ信号を音声テキストに文字起こしするための音声認識システムであって、前記オーディオ信号は第１の音声信号および第２の音声信号を含み、前記音声認識システムは、
前記オーディオ信号を受信するためのセッションを確立し、前記第１の音声信号を、前記確立されたセッションを通じて受信するように構成された通信インターフェースと、
前記第１の音声信号を、音声セグメントの第１のセットに分割するように構成された分割ユニットと、
前記音声セグメントの第１のセットを、テキストの第１のセットに文字起こしするように構成された文字起こしユニットと、
を備え、
前記通信インターフェースは、前記音声セグメントの第１のセットが文字起こしされている間に、前記第２の音声信号を受信するように更に構成される、音声認識システム。
前記分割ユニットは、前記第２の音声信号を、音声セグメントの第２のセットに分割するように更に構成され、
前記文字起こしユニットは、前記音声セグメントの第２のセットを、テキストの第２のセットに文字起こしするように更に構成される、請求項１２に記載の音声認識システム。
前記テキストの第１のセットおよび第２のセットを連続して組み合わせ、前記組み合わされたテキストを、前記文字起こしされたテキストに対する追加として記憶するように構成されたメモリを更に備える、請求項１３に記載の音声認識システム。
配信インターフェースを更に備え、
前記通信インターフェースは、サブスクライバから、前記オーディオ信号の前記文字起こしされたテキストをサブスクライブするための第１の要求を受信し、前記第１の要求が受信された時点を判断するように更に構成され、
前記配信インターフェースは、前記時点に対応する前記文字起こしされたテキストのサブセットを前記サブスクライバに配信するように構成される、請求項１２に記載の音声認識システム。
前記通信インターフェースは、前記オーディオ信号を受信するためのパケット損失率を監視し、前記パケット損失率が所定のしきい値よりも高いとき、前記セッションを終了させるように更に構成される、請求項１２に記載の音声認識システム。
前記通信インターフェースは、前記セッションが所定の期間にわたってアイドルであった後、前記セッションを終了させるように更に構成される、請求項１２に記載の音声認識システム。
前記サブスクライバは、前記文字起こしされたテキストを自動的に解析するための命令を実行するプロセッサを含む、請求項１５に記載の音声認識システム。
前記第１の音声信号は、前記セッション中に確立された第１のスレッドを通じて受信され、前記通信インターフェースは、
前記音声セグメントの第１のセットが文字起こしされている間に、前記第１のスレッドを解放するための応答を送信し、
前記第２の音声信号を受信するための第２のスレッドを確立するように更に構成される、請求項１２に記載の音声認識システム。
音声認識システムの少なくとも１つのプロセッサによって実行されると、前記音声認識システムに、オーディオ信号をテキストに文字起こしするための方法を行わせる命令のセットを記憶する非一時的コンピュータ可読媒体であって、前記オーディオ信号は第１の音声信号および第２の音声信号を含み、前記方法は、
前記オーディオ信号を受信するためのセッションを確立するステップと、
前記第１の音声信号を、前記確立されたセッションを通じて受信するステップと、
前記第１の音声信号を、音声セグメントの第１のセットに分割するステップと、
前記音声セグメントの第１のセットを、テキストの第１のセットに文字起こしするステップと、
前記音声セグメントの第１のセットが文字起こしされている間に、前記第２の音声信号を受信するステップと、
を含む、非一時的コンピュータ可読媒体。