JP7331044B2

JP7331044B2 - 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP7331044B2
Application number: JP2021099367A
Authority: JP
Inventors: シンビァオリー; ハンメイシエ; フェイミンファン; フイビンジャオ; メイユェンディン; リナフ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2021-06-15
Publication date: 2023-08-22
Anticipated expiration: 2041-06-15
Also published as: EP3869505A2; CN112270918A; EP3869505A3; JP2022050309A; US20210312926A1

Description

本出願の実施形態は、人工知能技術分野に関し、具体的には音声認識、音声マージ、および自然言語処理技術分野に関し、特に情報処理方法および装置に関する。

人工知能は、コンピュータに人間の一部の思考過程と知能行為（例えば学習、推論、思考、計画など）をシミュレーションさせることを研究する学科であり、ハードウェアレベルの技術もあれば、ソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および機械学習／ディープラーニング、ビッグデータ処理技術、知識画像技術などのいくつかの方向を含む。

人工知能の発展に伴い、オンライン音声ビデオ会議サービスを利用することが企業における日常会議の主流となっている。実際のシーンでは、ユーザが会議を見落とした場合、その後に会議内容を見たい場合、重要な会議の参加者が会議の重要な情報を振り返る必要がある場合など、会議記録機能が音声ビデオ会議ソフトウェアの重要な機能となっている。

現段階の音声ビデオ会議の録音・録画シーンでは、録音・録画ソフトは音声保存オーディオのみを録音したり、音声を一区切りの文字に変換したりする形を採用しており、同じ時刻に複数人が発話していると録音効果が悪く、音声から変換された文字も乱れてしまう。そのため、ユーザが会議情報を迅速に振り返り、会議キャラクタを識別することを容易にする、会議シーンにより適合した会議記録方式をユーザに提供する必要がある。

本出願は情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラムを提供し、人工知能技術分野に関し、具体的に音声認識、音声合成、および自然言語処理の技術分野に関する。

第１態様において、本出願の実施形態は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻と、を確定するステップと、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成するステップと、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成するステップと、マージ終了条件を満たしたことに応答して、各第１のテキストに対して、キャラクタ識別子および開始時刻に基づいて各第１のテキストを順列組合することを表すための統合動作を行い、各第１のテキストに対応する第２のテキストを生成するステップと、を含む、情報処理方法を提供する。

第２態様において、本出願の実施形態は、情報処理要求を受信したことに応答して、各キャラクタの異なる時刻におけるオーディオデータを採集し、オーディオデータをサーバに送信し、サーバから送信された第２のテキストを受信したことに応答して、各キャラクタ識別子および対応する各開始時刻に基づいて、第２のテキストを表示するように構成されるクライアントと、上記いずれか１項に記載の情報処理方法を実行するように構成されるサーバと、を含む、情報処理システムを提供する。

第３態様において、本出願の実施形態は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻と、を確定するように構成される受信ユニットと、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成するように構成される変換ユニットと、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成するように構成されるマージユニットと、マージ終了条件を満たしたことに応答して、各第１のテキストに対して、キャラクタ識別子および開始時刻に基づいて各第１のテキストを順列組合することを表すための統合動作を行い、各第１のテキストに対応する第２のテキストを生成するように構成される情報処理ユニットと、を含む情報処理装置を提供する。

第４態様において、本出願の実施形態は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続された記憶装置とを含む電子機器であって、記憶装置に少なくとも１つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに第１態様のいずれかの実施形態に記載の方法が実装される電子機器を提供する。

第５態様において、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第１態様に記載のいずれかの方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。

第６態様において、本出願の実施形態は、プロセッサにより実行されると、本出願の第１態様のいずれかの実施形態に記載の方法が実装される、コンピュータプログラムを提供する。

上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の説明によって理解しやすくなるであろう。

図面は、本出願をよりよく理解するために使用されるものであって、本出願の限定を構成しない。
本出願に係る情報処理方法の一実施形態を示す模式図である。本出願の実施形態に係る情報処理方法を実行可能なシーン図である。本出願に係る情報処理方法の別の実施形態を示す模式図である。本出願に係る情報処理システムの一実施形態の構成模式図である。本出願に係る情報処理方法をユーザに示すインターフェース模式図である。本出願に係る情報処理装置の一実施形態の構成模式図である。本発明の実施形態に係る情報処理方法を実行するための電子機器のブロック図である。

以下、図面に関連して、本出願の例示的な実施形態を説明する。理解を容易にするために、本出願の実施形態の様々な詳細を含むが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態は、本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識するであろう。同様に、以下の説明では、明確化かつ簡略化のために、公知の機能および構造の説明を省略する。

なお、矛盾を生じない限り、本出願の実施形態および実施形態における特徴は、互いに組み合わせられてもよい。以下、図面を参照し、実施形態に関連して、本出願について詳細に説明する。

図１は、本出願に係る情報処理方法の一実施形態を示す模式図１００である。この情報処理方法は、具体的には、以下のステップ（ステップ１０１～１０４）を含む。

ステップ１０１では、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定する。

本実施形態では、実行主体（例えば、サーバまたはクラウドプラットフォーム）はクライアントから送信された情報処理要求を受信すると、各クライアントから送信された対応するキャラクタのオーディオデータストリームを有線接続方式または無線接続方式で受信し、そして、各オーディオデータに対してコンテンツ解析を行うか、または各オーディオデータを用いてデータベースに問い合わせることにより、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定することができる。本実施形態では、クライアントは、ユーザから発した議事録イベント（例えば、所定のボタン／メニューまたは設定されたショートカットキーがクリック／トリガされたイベント）を聞くことにより、ユーザの会議記録指示を受け、会議記録指示に基づいて情報処理要求を生成して送信することができる。各キャラクタは、会議ソフトウェアに登録された各発話者アカウントを表すことができる。各キャラクタのオーディオデータは、会議シーンにおいて各キャラクタが異なる時刻に発話したオーディオデータを表すことができる。異なる時刻のオーディオデータは、予め設定された時間に基づいて、オーディオデータの時間間隔が予め設定された閾値より大きいか否かを判断することで得られる。例えば、同じキャラクタの長時間発話におけるポーズ時間が５秒を超えるとセグメント化し、すなわち、次の時刻のオーディオデータとする。あるいは同じキャラクタの発話時間が６０秒継続すると、そのキャラクタ発話におけるポーズ時間が２秒を超えるとセグメント化する。なお、上記の無線接続方式は、３Ｇ、４Ｇ、５Ｇ接続、Ｗｉ－Ｆｉ接続、ブルートゥース（登録商標）接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅ接続、ＵＷＢ（ＵｌｔｒａＷｉｄｅｂａｎｄ）接続、および他の現在に知られているまたは将来に開発される無線接続方式を含むことができるが、これらに限定されない。

ステップ１０２では、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成する。

本実施形態では、実行主体は、音声変換方法に基づいて、ステップ１０１で受信した異なるキャラクタの各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成することができる。

ステップ１０３では、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成する。

本実施形態では、実行主体はマージ動作指令を受信しかつマージがマージ終了条件を満たしていないと判断した後、すべてのテキスト情報に対して、同じキャラクタタグのテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成する。マージ終了条件は予め設定されることができる。ここで、マージ終了条件は、マージ時間および／またはマージテキストのサイズに基づいて設定されることができる。例えば、マージ時間が６０分間に達した場合には、マージ終了条件を満たしたと判断され、および／または、マージテキストのサイズ（すなわち、各第１のテキストのサイズの合計）が予め設定された閾値を超えた場合には、マージ終了条件を満たしたと判断される。マージ終了条件はさらに、ユーザによってトリガされた動作ボタンに基づいて判断されることができる。すなわち、ユーザが動作ボタンをクリックしてマージ動作指令を終了した場合には、マージ終了条件を満たしたと判断される。

ステップ１０４では、マージ終了条件を満たしたことに応答して、各第１のテキストをマージし、各第１のテキストに対応する第２のテキストを生成する。

本実施形態では、実行主体はマージがマージ終了条件を満たしたと判断した場合、各第１のテキストに対して、キャラクタ識別子および開始時刻に応じて各第１のテキストを順列組合することを表すための統合動作を行い、各第１のテキストに対応する第２のテキストを生成する。

図２によると、本実施形態に係る情報処理方法２００は、電子機器２０１において実行される。電子機器２０１は、情報処理要求を受信すると、まず、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定する（２０２）。そして、電子機器２０１は、受信した各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成する（２０３）。電子機器２０１は、マージ動作指令を受信しかつマージ終了条件を満たしていない場合には、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻に対応する各第１のテキストを生成する（２０４）。電子機器２０１は、マージ終了条件を満たした場合、各第１のテキストをマージし、各第１のテキストに対応する第２のテキストを生成し（２０５）、第２のテキストを各クライアントまたは指定したクライアントに送信する。

本出願の上述した実施形態に係る情報処理方法は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定し、受信した各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成し、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成し、マージ終了条件を満たしたことに応答して、各第１のテキストをマージし、各第１のテキストに対応する第２のテキストを生成することにより、複数のクライアントにおける異なるキャラクタのオーディオデータを受信・変換した後、テキスト統合を経て送信情報を確定する方法を実現した。各クライアントにおける異なるキャラクタのオーディオデータをそれぞれ受信し、異なるキャラクタに応じて音声の採集と処理を行うことにより、従来技術に見られる同じ時刻に複数人がオンラインで話すと録音効果が悪くなるという問題を解決した。キャラクタ別にオーディオを採集・変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成することにより、従来技術に見られる音声から変換した文字が乱れるという問題を解決した。この方法により、会議シーンにおいては、会議内容の可視化が可能となる。会議のオーディオをテキスト形式に変換してクライアントに送信し、テキスト情報をユーザに提示することにより、ユーザは筋道がよく立って迅速に会議内容を振り返ることができる。ユーザの問合せ時間を節約し、ユーザの読解体験を向上させることができる。

図３は、情報処理方法の別の実施形態の模式図３００を示す。当該方法のフローは、以下のステップ（ステップ３０１～３０５）を含む。

ステップ３０１では、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定する。

ステップ３０２では、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成する。

ステップ３０３では、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成し、すべてのオーディオデータに対して組み合せ動作を行い、すべてのオーディオデータに対応する第１のオーディオデータを生成する。

本実施形態では、実行主体はマージ動作指令を受信しかつマージがマージ終了条件を満たしていないと判断した後、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成し、すべてのオーディオデータに対して、各オーディオデータの開始時刻に応じてすべてのオーディオデータをソートすることを表すための組み合せ動作を行い、すべてのオーディオデータに対応する第１のオーディオデータを生成することができる。

本実施形態のいくつかのオプション的な実施形態では、マージ動作指令は、クライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、またはマージ動作指令は、現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる。様々なマージ動作指令のトリガ条件を設けることにより、柔軟で多様なテキストマージを実現し、システムおよびユーザの様々なニーズを満たすとともに、システム効率を向上させることができる。

ステップ３０４では、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応するオーディオ総持続時間を確定する。

本実施形態では、実行主体は、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応するオーディオ総持続時間を確定することができ、オーディオ総持続時間は、ある期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表す。

ステップ３０５では、マージ終了条件を満たしたことに応答して、各第１のテキストをマージし、各第１のテキストに対応する第２のテキストを生成し、第２のテキスト、第１のオーディオデータ、およびオーディオ総持続時間を各クライアントまたは指定したクライアントに送信する。

本実施形態では、実行主体は、マージがマージ終了条件を満たしたと判断した後、各第１のテキストをマージし、各第１のテキストに対応する第２のテキストを生成し、そして第２のテキスト、ステップ３０３で生成された第１のオーディオデータ、およびステップ３０４で確定されたオーディオ総持続時間を各クライアントまたは指定したクライアントに送信してユーザに表示することができる。

なお、上述した条件判断およびデータ統合方法は、現在広く研究および適用されている公知技術であり、ここではこれ以上説明しない。

本実施形態では、ステップ３０１および３０２の具体的な動作は、図１に示す実施形態におけるステップ１０１および１０２の動作と実質的に同じであり、ここではこれ以上説明しない。

図３から分かるように、図１に対応する実施形態と比較して、本実施形態における情報処理方法の模式図３００は、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成し、すべてのオーディオデータに対して組み合せ動作を行い、すべてのオーディオデータに対応する第１のオーディオデータを生成し、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応するオーディオ総持続時間を確定し、マージ終了条件を満たしたことに応答して、各第１のテキストをマージし、各第１のテキストに対応する第２のテキストを生成し、第２のテキスト、第１のオーディオデータ、およびオーディオ総持続時間を各クライアントまたは指定したクライアントに送信することにより、既存の第三者ソフトウェアがローカル機器の音声しか録音できず、会議中に他の端末から伝送される音声に音漏れ、畳音（ｄｕｐｌｉｃａｔｉｏｎ）、音の低減などが発生しやすいという問題を解決し、より豊富な情報伝送を実現した。これにより、音声、文字、音声関連情報などを含むより網羅的で多様な情報をユーザに提示することができる。

図４は、本出願に係る情報処理システムの一実施形態の構成模式図４００を示す。図４に示すように、この情報処理システムは、情報処理要求を受信したことに応答して、各キャラクタの異なる時刻のオーディオデータを採集し、オーディオデータをサーバに送信し、サーバから送信された第２のテキストを受信したことに応答して、各キャラクタ識別子および対応する各開始時刻に基づいて、図５に示すように第２のテキストを表示するように構成されるクライアント４０１と、上記の情報処理方法を実行するように構成されるサーバ４０２と、を含む。具体的には、テキストを表示する過程で、同じ時間帯に複数人が発話する場合、発話時間の早いから遅い順にソートし、複数人の発話の開始時間が同じである場合、発話者の名前の頭文字、数字順にソートする。

システムにおいて、クライアントはさらに、サーバから送信された第１のオーディオデータを受信したことに応答して、第１のオーディオデータに対応する音声マップを表示するように構成されている。クライアントはサーバから送信された第１のオーディオデータを受信した場合、図５に示すように第１のオーディオデータに対応する音声マップをユーザに提示することができる。

システムにおいて、クライアントはさらに、音声マップにトリガされた再生動作を受信したことに応答して、再生動作に対応するオーディオデータを取得し、オーディオデータに基づいて、オーディオデータに対応する各キャラクタ識別子、キャラクタ識別子に対応する各開始時刻、およびキャラクタ識別子と開始時刻とに対応する各テキスト情報を確定し、表示された第２のテキストにトリガされた選択動作を受信したことに応答して、選択動作に対応する第２のテキストにおけるテキスト情報を取得し、第２のテキストにおけるテキスト情報に基づいて、テキスト情報に対応するオーディオデータを確定し、オーディオデータが示す音声を再生し、音声に対応するテキスト情報が現在のページにあることに応答して、音声に対応する各テキスト情報を表示するように構成されている。これにより、同じ時刻に複数人が発話した場合には、複数人の文字の位置特定を同時に行い、文字ごとにハイライト表示することができる。テキストと音声の相互位置特定により、音声再生中にテキストは、音声再生に伴って自動的にスクロールするとともに文字ごとにハイライト表示される。

システムにおいて、クライアントはさらに、音声に対応するテキスト情報が現在のページに存在しないことを検出したことに応答して、ジャンプボタンを表示するように構成されている。これにより、文字の段落全体が積み重ねられて表示されており、ユーザはキー情報を迅速に位置特定、認識することができず、音声再生中にユーザは対応するテキスト情報に高度に注意を払う必要があり、労力がかかり、読みにくいという問題を解決し、キー情報を位置特定、認識する効率を向上させることができる。

システムにおいて、クライアントはさらに、サーバから送信されたキャラクタ識別子に対応するオーディオ総持続時間を受信したことに応答して、キャラクタ識別子に基づいてオーディオ総持続時間を表示するように構成されている。これにより、より豊富で多様な情報提示を実現し、ユーザの異なるニーズに応えることができる。

システムにおいて、クライアントはさらに、第２のテキストおよび議事録テンプレートに基づいて、図５に示すように第２のテキストに対応する議事録を生成するように構成されている。テキストマージとテキスト統合を通じて、会議ごとのすべての発話者のテキストをマージして完全な会議内容に復元することにより、ユーザは必要に応じてテキストをスクロール閲覧、検索し、発話者、発話時間、発話内容の提示形式を採用して、より明確かつ系統的に会議内容を読むことができるため、ユーザのエネルギーを節約し、読解体験を向上させることができる。

図４から分かるように、この情報処理システムにより、文字段落全体が積み重ねられて表示されており、ユーザはキー情報を迅速に位置特定、認識することができないという問題を解決した。ユーザはテキスト内容を直接コピーしたり、会議のキー情報を抜粋したりして関連文書（例えば、議事録）を作成することができるため、文書作成の効率が向上している。テキストと音声マップを同時に表示することにより、より豊富な情報提示を実現し、ユーザの多様なニーズをさらに満たすことができる。

さらに図６を参照すると、本出願では、上述した図１～３に示す方法の実装として、様々な電子機器に具体的に適用可能な情報処理装置の一実施形態を提供する。この装置の実施形態は、図１に示す方法の実施形態に対応する。

図６に示すように、本実施形態に係る情報処理装置６００は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定するように構成される受信ユニット６０１と、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成するように構成される変換ユニット６０２と、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成するように構成されるマージユニット６０３と、マージ終了条件を満たしたことに応答して、各第１のテキストに対して、キャラクタ識別子および開始時刻に応じて各第１のテキストを順列組合することを表すための統合動作を行い、各第１のテキストに対応する第２のテキストを生成するように構成される情報処理ユニット６０４と、を含む。

本実施形態では、情報処理装置６００の受信ユニット６０１、変換ユニット６０２、マージユニット６０３および情報処理ユニット６０４の具体的な処理およびそれによる技術的効果については、それぞれ図１に対応する実施形態におけるステップ１０１～１０４に対する説明を参照することができる。ここではこれ以上説明しない。

本実施形態のいくつかのオプション的な実施形態では、マージユニットのマージ動作指令はクライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、またはマージユニットのマージ動作指令は現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる。

本実施形態のいくつかのオプション的な実施形態では、装置は、第２のテキストを各クライアントまたは指定したクライアントに送信するように構成される情報送信ユニットをさらに含む。

本実施形態のいくつかのオプション的な実施形態では、装置は、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのオーディオデータに対して、各オーディオデータの開始時刻に応じてすべてのオーディオデータをソートすることを表すための組み合わせ動作を行い、すべてのオーディオデータに対応する第１のオーディオデータを生成するように構成される生成ユニットをさらに含み、情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、第１のオーディオデータを各クライアントまたは指定したクライアントに送信するように構成されている。

本実施形態のいくつかのオプション的な実施形態では、装置は、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応する、ある期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表すためのオーディオ総持続時間を確定するように構成される確定ユニットをさらに含み、情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、オーディオ総持続時間を各クライアントまたは指定したクライアントに送信するように構成されている。

図７は、本発明の実施形態に係る情報処理方法を実行するための電子機器のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置、および他の同様のコンピューティング装置のような様々な形態のモバイル装置を表すことができる。本出願に示すコンポーネント、それらの接続および関係、ならびにそれらの機能は、一例に過ぎず、本出願に記載されたおよび／または要求される本出願の実装を限定することは意図されていない。

図７に示すように、この電子機器は、１つまたは複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力装置上にＧＵＩのグラフィック情報を表示するために、メモリまたはメモリ上に格納された指令を含む電子機器内で実行される指令を処理することができる。他の実施形態では、複数のプロセッサおよび／または複数のバスは、必要に応じて、複数のメモリおよび複数のメモリとともに使用されてもよい。同様に、複数の電子機器を接続することができ、各機器は、部分的に必要な動作（例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして）を提供することができる。図７では、１つのプロセッサ７０１を例に挙げている。

メモリ７０２は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。ここで、メモリには、少なくとも１つのプロセッサに、本出願によって提供される情報処理方法を実行させるために、少なくとも１つのプロセッサによって実行可能な指令が格納されている。本出願の非一時的コンピュータ可読記憶媒体は、本出願によって提供される情報処理方法をコンピュータに実行させるためのコンピュータ指令を記憶する。

メモリ７０２は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、並びに本実施形態における情報処理方法に対応するプログラム指令／モジュール（例えば、図６に示す受信ユニット６０１、変換ユニット６０２、マージユニット６０３、情報処理ユニット６０４）のようなモジュールを記憶するために使用されることができる。プロセッサ７０１は、メモリ７０２に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する。すなわち、上述した方法の実施形態における情報処理方法を実現する。

メモリ７０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、情報処理方法を実行する電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域と、を含むことができる。さらに、メモリ７０２は、高速ランダムアクセスメモリを含むことができ、少なくとも１つのディスク記憶装置、フラッシュメモリ装置、または他の非一時的ソリッドステート記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ７０２は、任意に、プロセッサ７０１に対して遠隔設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して情報処理方法を実行する電子機器に接続されることができる。上述したネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。

情報処理方法を実行するための電子機器は、入力装置７０３と、出力装置７０４と、をさらに含むことができる。プロセッサ７０１、メモリ７０２、入力装置７０３、および出力装置７０４は、バスまたは他の方法で接続されることができる。図７は、バスを介して接続されている例を示す。

入力装置７０３は、入力された数字または文字情報を受信し、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの情報処理方法を実行する電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置７０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）などを含むことができる。表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本出願に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路（ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装されてもよい。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムに実装されることを含むことができる。この１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈することができる。このプログラマブルプロセッサは、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に送信することができる専用または汎用プログラマブルプロセッサであってもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含む。これらのコンピュータプログラムは、高度なプロセスおよび／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語を使用して実施されることができる。本出願で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置（ＰＬＤ））を意味する。それには、機械可読信号として機械命令を受信する機械可読媒体が含まれる。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

ユーザとのやりとりを提供するために、本出願に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボードおよびポインティング装置（例えば、マウスまたはトラックボール）と、を有するコンピュータ上で実施されてもよく、ユーザは、キーボードおよびポインティング装置を介して入力をコンピュータに提供することができる。他の種類の装置はまた、ユーザとのやりとりを提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、ユーザからの入力は、任意の形態（音響入力、音声入力、または触覚入力を含む）で受信されてもよい。

本出願に記載されたシステムおよび技術は、バックグラウンドコンポーネントを含むコンピュータシステム（例えば、データサーバとして）、またはミドルウェアコンポーネントを含むコンピュータシステム（例えば、アプリケーションサーバ）、または前側コンポーネントを含むコンピュータシステム（例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ。ユーザは、グラフィカルユーザインターフェースまたはウェブブラウザを介して、本出願に記載されたシステムおよび技術の実施形態と相互作用することができる。）、またはそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、または前側コンポーネントの任意の組み合わせを含む計算システムにおいて実装されることができる。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、通常互いに離れており、一般に通信ネットワークを介して相互作用する。クライアントとサーバの関係は、対応するコンピュータ上で実行され、互いにクライアント／サーバ関係にあるコンピュータプログラムによって生成される。

本出願の実施形態の技術的解決手段によれば、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定し、受信した各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成し、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻に対応する各第１のテキストを生成し、マージ終了条件を満たしたことに応答して、各第１のテキストをマージし、各第１のテキストに対応する第２のテキストを生成することにより、複数のクライアントにおける異なるキャラクタのオーディオデータを受信・変換したうえ、テキスト統合を経て送信情報を確定する方法を実現した。各クライアントにおける異なるキャラクタのオーディオデータをそれぞれ受信し、異なるキャラクタに応じて音声の採集と処理を行うことにより、従来技術に見られる同じ時刻に複数人がオンラインで話すと録音効果が悪くなるという問題を解決した。キャラクタ別にオーディオを採集・変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻に対応する各テキスト情報を生成することにより、従来技術に見られる音声から変換した文字が乱れるという問題を解決した。この方法により、会議シーンにおいては、会議内容の可視化が可能となる。会議のオーディオをテキスト形式に変換してクライアントに送信し、テキスト情報をユーザに提示することにより、ユーザは筋道がよく立って迅速に会議内容を振り返ることができる。ユーザの問合せ時間を節約し、ユーザの読解体験を向上させることができる。

なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。

上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各前記オーディオデータに基づいて、各前記オーディオデータのキャラクタ識別子と、前記キャラクタ識別子に対応する各前記オーディオデータの開始時刻と、を確定するステップと、
受信した各オーディオデータを変換して、前記オーディオデータのキャラクタ識別子と前記オーディオデータの開始時刻とに対応する各テキスト情報を生成するステップと、
マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、前記キャラクタ識別子と開始時刻とに対応する各第１のテキストを生成するステップであって、各第１のテキストの対応する開始時刻は、当該第１のテキストのキャラクタ識別子を有するオーディオデータの中の最初のオーディオデータの対応する開始時刻である、ステップと、
マージ終了条件を満たしたことに応答して、各前記第１のテキストに対して、キャラクタ識別子および開始時刻に基づいて各前記第１のテキストを順列組合することを表すための統合動作を行い、第２のテキストを生成するステップと、を含む情報処理方法。
前記マージ動作指令は、クライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、または現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる、請求項１に記載の情報処理方法。
前記第２のテキストを各前記クライアントまたは指定したクライアントに送信するステップをさらに含む、請求項１に記載の情報処理方法。
マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのオーディオデータに対して、各オーディオデータの開始時刻に基づいてすべてのオーディオデータをソートすることを表すための組み合わせ動作を行い、すべてのオーディオデータに対応する第１のオーディオデータを生成するステップと、
マージ終了条件を満たしたことに応答して、前記第１のオーディオデータを各前記クライアントまたは指定したクライアントに送信するステップと、をさらに含む、請求項１に記載の情報処理方法。
特定の期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表すための、キャラクタ識別子に対応するオーディオ総持続時間を、各前記オーディオデータの持続時間に基づいて確定するステップと、
マージ終了条件を満たしたことに応答して、前記オーディオ総持続時間を各前記クライアントまたは指定したクライアントに送信するステップと、をさらに含む、請求項１に記載の情報処理方法。
情報処理要求を受信したことに応答して、各キャラクタの異なる時刻におけるオーディオデータを採集し、前記オーディオデータをサーバに送信し、サーバから送信された前記第２のテキストを受信したことに応答して、各キャラクタ識別子および対応する各開始時刻に基づいて、前記第２のテキストを表示するように構成されるクライアントと、
請求項１～５のいずれか１項に記載の情報処理方法を実行するように構成されるサーバと、を含む、情報処理システム。
前記クライアントはさらに、サーバから送信された第１のオーディオデータを受信したことに応答して、前記第１のオーディオデータに対応する音声マップを表示するように構成されている、請求項６に記載の情報処理システム。
前記クライアントはさらに、
前記音声マップに対してトリガされた再生動作を受信したことに応答して、再生動作に対応するオーディオデータを取得し、前記オーディオデータに基づいて、前記オーディオデータに対応する各キャラクタ識別子と、前記キャラクタ識別子に対応する各開始時刻と、前記キャラクタ識別子および前記開始時刻に対応する各テキスト情報と、を確定し、
表示された前記第２のテキストに対してトリガされた選択動作を受信したことに応答して、選択動作に対応する前記第２のテキストにおけるテキスト情報を取得し、前記第２のテキストにおけるテキスト情報に基づいて、前記テキスト情報に対応するオーディオデータを確定し、
前記オーディオデータが表す音声を再生し、前記音声に対応するテキスト情報が現在のページにあることに応答して、前記音声に対応する各テキスト情報を表示するように構成されている、請求項７に記載の情報処理システム。
前記クライアントはさらに、前記音声に対応するテキスト情報が現在のページに存在していないことを検出したことに応答して、ジャンプボタンを表示するように構成されている、請求項８に記載の情報処理システム。
前記クライアントはさらに、サーバから送信された、キャラクタ識別子に対応するオーディオ総持続時間を受信したことに応答して、キャラクタ識別子に基づいて前記オーディオ総持続時間を表示するように構成されている、請求項６に記載の情報処理システム。
前記クライアントはさらに、前記第２のテキストおよび議事録テンプレートに基づいて、前記第２のテキストに対応する議事録を生成するように構成されている、請求項６に記載の情報処理システム。
各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各前記オーディオデータに基づいて、各前記オーディオデータのキャラクタ識別子と、前記キャラクタ識別子に対応する各前記オーディオデータの開始時刻と、を確定するように構成される受信ユニットと、
受信した各オーディオデータを変換して、前記オーディオデータのキャラクタ識別子と前記オーディオデータの開始時刻とに対応する各テキスト情報を生成するように構成される変換ユニットと、
マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、前記キャラクタ識別子と前記開始時刻とに対応する各第１のテキストを生成するように構成されるマージユニットであって、各第１のテキストの対応する開始時刻は、当該第１のテキストのキャラクタ識別子を有するオーディオデータの中の最初のオーディオデータの対応する開始時刻である、マージユニットと、
マージ終了条件を満たしたことに応答して、各前記第１のテキストに対して、キャラクタ識別子および開始時刻に基づいて各前記第１のテキストを順列組合することを表すための統合動作を行い、第２のテキストを生成するように構成される情報処理ユニットと、を含む情報処理装置。
前記マージユニットの前記マージ動作指令は、
クライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、または現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる、請求項１２に記載の情報処理装置。
前記第２のテキストを各前記クライアントまたは指定したクライアントに送信するように構成される情報送信ユニットをさらに含む、請求項１２に記載の情報処理装置。
マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのオーディオデータに対して、各オーディオデータの開始時刻に基づいてすべてのオーディオデータをソートすることを表すための組み合わせ動作を行い、すべてのオーディオデータに対応する第１のオーディオデータを生成するように構成される生成ユニットをさらに含み、
前記情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、前記第１のオーディオデータを各前記クライアントまたは指定したクライアントに送信するように構成されている、請求項１４に記載の情報処理装置。
特定の期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表すための、キャラクタ識別子に対応するオーディオ総持続時間を、各前記オーディオデータの持続時間に基づいて確定するように構成される確定ユニットをさらに含み、
前記情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、前記オーディオ総持続時間を各前記クライアントまたは指定したクライアントに送信するように構成されている、請求項１４に記載の情報処理装置。
少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサと通信可能に接続されるメモリとを含む電子機器であって、
前記メモリに前記少なくとも１つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１～５のいずれか１項に記載の情報処理方法を実行する、電子機器。
コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
前記コンピュータ指令はコンピュータに請求項１～５のいずれか１項に記載の情報処理方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体。
プロセッサにより実行されると、請求項１～５のいずれか１項に記載の情報処理方法を実現するコンピュータプログラム。