JP7331044B2 - 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム - Google Patents

情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム Download PDF

Info

Publication number
JP7331044B2
JP7331044B2 JP2021099367A JP2021099367A JP7331044B2 JP 7331044 B2 JP7331044 B2 JP 7331044B2 JP 2021099367 A JP2021099367 A JP 2021099367A JP 2021099367 A JP2021099367 A JP 2021099367A JP 7331044 B2 JP7331044 B2 JP 7331044B2
Authority
JP
Japan
Prior art keywords
audio data
text
client
merge
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021099367A
Other languages
English (en)
Other versions
JP2022050309A (ja
Inventor
シンビァオ リー
ハンメイ シエ
フェイミン ファン
フイビン ジャオ
メイユェン ディン
リナ フ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022050309A publication Critical patent/JP2022050309A/ja
Application granted granted Critical
Publication of JP7331044B2 publication Critical patent/JP7331044B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/149Adaptation of the text data for streaming purposes, e.g. Efficient XML Interchange [EXI] format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/109Time management, e.g. calendars, reminders, meetings or time accounting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/656Recording arrangements for recording a message from the calling party for recording conversations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • H04L51/066Format adaptation, e.g. format conversion or compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)

Description

本出願の実施形態は、人工知能技術分野に関し、具体的には音声認識、音声マージ、および自然言語処理技術分野に関し、特に情報処理方法および装置に関する。
人工知能は、コンピュータに人間の一部の思考過程と知能行為(例えば学習、推論、思考、計画など)をシミュレーションさせることを研究する学科であり、ハードウェアレベルの技術もあれば、ソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータ視覚技術、音声認識技術、自然言語処理技術および機械学習/ディープラーニング、ビッグデータ処理技術、知識画像技術などのいくつかの方向を含む。
人工知能の発展に伴い、オンライン音声ビデオ会議サービスを利用することが企業における日常会議の主流となっている。実際のシーンでは、ユーザが会議を見落とした場合、その後に会議内容を見たい場合、重要な会議の参加者が会議の重要な情報を振り返る必要がある場合など、会議記録機能が音声ビデオ会議ソフトウェアの重要な機能となっている。
現段階の音声ビデオ会議の録音・録画シーンでは、録音・録画ソフトは音声保存オーディオのみを録音したり、音声を一区切りの文字に変換したりする形を採用しており、同じ時刻に複数人が発話していると録音効果が悪く、音声から変換された文字も乱れてしまう。そのため、ユーザが会議情報を迅速に振り返り、会議キャラクタを識別することを容易にする、会議シーンにより適合した会議記録方式をユーザに提供する必要がある。
本出願は情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラムを提供し、人工知能技術分野に関し、具体的に音声認識、音声合成、および自然言語処理の技術分野に関する。
第1態様において、本出願の実施形態は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻と、を確定するステップと、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成するステップと、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成するステップと、マージ終了条件を満たしたことに応答して、各第1のテキストに対して、キャラクタ識別子および開始時刻に基づいて各第1のテキストを順列組合することを表すための統合動作を行い、各第1のテキストに対応する第2のテキストを生成するステップと、を含む、情報処理方法を提供する。
第2態様において、本出願の実施形態は、情報処理要求を受信したことに応答して、各キャラクタの異なる時刻におけるオーディオデータを採集し、オーディオデータをサーバに送信し、サーバから送信された第2のテキストを受信したことに応答して、各キャラクタ識別子および対応する各開始時刻に基づいて、第2のテキストを表示するように構成されるクライアントと、上記いずれか1項に記載の情報処理方法を実行するように構成されるサーバと、を含む、情報処理システムを提供する。
第3態様において、本出願の実施形態は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻と、を確定するように構成される受信ユニットと、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成するように構成される変換ユニットと、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成するように構成されるマージユニットと、マージ終了条件を満たしたことに応答して、各第1のテキストに対して、キャラクタ識別子および開始時刻に基づいて各第1のテキストを順列組合することを表すための統合動作を行い、各第1のテキストに対応する第2のテキストを生成するように構成される情報処理ユニットと、を含む情報処理装置を提供する。
第4態様において、本出願の実施形態は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続された記憶装置とを含む電子機器であって、記憶装置に少なくとも1つのプロセッサによって実行可能な指令が記憶されており、指令が少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに第1態様のいずれかの実施形態に記載の方法が実装される電子機器を提供する。
第5態様において、本出願の実施形態は、コンピュータ指令が記憶されている非一時的コンピュータ可読記憶媒体であって、コンピュータ指令はコンピュータに第1態様に記載のいずれかの方法を実施させるためのものである、非一時的コンピュータ可読記憶媒体を提供する。
第6態様において、本出願の実施形態は、プロセッサにより実行されると、本出願の第1態様のいずれかの実施形態に記載の方法が実装される、コンピュータプログラムを提供する。
上記説明は、本出願の実施形態の肝心または重要な特徴を認識することが意図されているわけではなく、本出願の範囲を限定するためにも使用されないことを理解されたい。本出願の他の特徴は、以下の説明によって理解しやすくなるであろう。
図面は、本出願をよりよく理解するために使用されるものであって、本出願の限定を構成しない。
本出願に係る情報処理方法の一実施形態を示す模式図である。 本出願の実施形態に係る情報処理方法を実行可能なシーン図である。 本出願に係る情報処理方法の別の実施形態を示す模式図である。 本出願に係る情報処理システムの一実施形態の構成模式図である。 本出願に係る情報処理方法をユーザに示すインターフェース模式図である。 本出願に係る情報処理装置の一実施形態の構成模式図である。 本発明の実施形態に係る情報処理方法を実行するための電子機器のブロック図である。
以下、図面に関連して、本出願の例示的な実施形態を説明する。理解を容易にするために、本出願の実施形態の様々な詳細を含むが、それらは例示的なものにすぎないとみなされるべきである。したがって、当業者であれば、本出願に記載された実施形態は、本出願の範囲および趣旨から逸脱することなく、様々な変更および修正を行うことができることを認識するであろう。同様に、以下の説明では、明確化かつ簡略化のために、公知の機能および構造の説明を省略する。
なお、矛盾を生じない限り、本出願の実施形態および実施形態における特徴は、互いに組み合わせられてもよい。以下、図面を参照し、実施形態に関連して、本出願について詳細に説明する。
図1は、本出願に係る情報処理方法の一実施形態を示す模式図100である。この情報処理方法は、具体的には、以下のステップ(ステップ101~104)を含む。
ステップ101では、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定する。
本実施形態では、実行主体(例えば、サーバまたはクラウドプラットフォーム)はクライアントから送信された情報処理要求を受信すると、各クライアントから送信された対応するキャラクタのオーディオデータストリームを有線接続方式または無線接続方式で受信し、そして、各オーディオデータに対してコンテンツ解析を行うか、または各オーディオデータを用いてデータベースに問い合わせることにより、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定することができる。本実施形態では、クライアントは、ユーザから発した議事録イベント(例えば、所定のボタン/メニューまたは設定されたショートカットキーがクリック/トリガされたイベント)を聞くことにより、ユーザの会議記録指示を受け、会議記録指示に基づいて情報処理要求を生成して送信することができる。各キャラクタは、会議ソフトウェアに登録された各発話者アカウントを表すことができる。各キャラクタのオーディオデータは、会議シーンにおいて各キャラクタが異なる時刻に発話したオーディオデータを表すことができる。異なる時刻のオーディオデータは、予め設定された時間に基づいて、オーディオデータの時間間隔が予め設定された閾値より大きいか否かを判断することで得られる。例えば、同じキャラクタの長時間発話におけるポーズ時間が5秒を超えるとセグメント化し、すなわち、次の時刻のオーディオデータとする。あるいは同じキャラクタの発話時間が60秒継続すると、そのキャラクタ発話におけるポーズ時間が2秒を超えるとセグメント化する。なお、上記の無線接続方式は、3G、4G、5G接続、Wi-Fi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee接続、UWB(Ultra Wideband)接続、および他の現在に知られているまたは将来に開発される無線接続方式を含むことができるが、これらに限定されない。
ステップ102では、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成する。
本実施形態では、実行主体は、音声変換方法に基づいて、ステップ101で受信した異なるキャラクタの各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成することができる。
ステップ103では、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成する。
本実施形態では、実行主体はマージ動作指令を受信しかつマージがマージ終了条件を満たしていないと判断した後、すべてのテキスト情報に対して、同じキャラクタタグのテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成する。マージ終了条件は予め設定されることができる。ここで、マージ終了条件は、マージ時間および/またはマージテキストのサイズに基づいて設定されることができる。例えば、マージ時間が60分間に達した場合には、マージ終了条件を満たしたと判断され、および/または、マージテキストのサイズ(すなわち、各第1のテキストのサイズの合計)が予め設定された閾値を超えた場合には、マージ終了条件を満たしたと判断される。マージ終了条件はさらに、ユーザによってトリガされた動作ボタンに基づいて判断されることができる。すなわち、ユーザが動作ボタンをクリックしてマージ動作指令を終了した場合には、マージ終了条件を満たしたと判断される。
ステップ104では、マージ終了条件を満たしたことに応答して、各第1のテキストをマージし、各第1のテキストに対応する第2のテキストを生成する。
本実施形態では、実行主体はマージがマージ終了条件を満たしたと判断した場合、各第1のテキストに対して、キャラクタ識別子および開始時刻に応じて各第1のテキストを順列組合することを表すための統合動作を行い、各第1のテキストに対応する第2のテキストを生成する。
図2によると、本実施形態に係る情報処理方法200は、電子機器201において実行される。電子機器201は、情報処理要求を受信すると、まず、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定する(202)。そして、電子機器201は、受信した各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成する(203)。電子機器201は、マージ動作指令を受信しかつマージ終了条件を満たしていない場合には、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻に対応する各第1のテキストを生成する(204)。電子機器201は、マージ終了条件を満たした場合、各第1のテキストをマージし、各第1のテキストに対応する第2のテキストを生成し(205)、第2のテキストを各クライアントまたは指定したクライアントに送信する。
本出願の上述した実施形態に係る情報処理方法は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定し、受信した各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成し、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成し、マージ終了条件を満たしたことに応答して、各第1のテキストをマージし、各第1のテキストに対応する第2のテキストを生成することにより、複数のクライアントにおける異なるキャラクタのオーディオデータを受信・変換した後、テキスト統合を経て送信情報を確定する方法を実現した。各クライアントにおける異なるキャラクタのオーディオデータをそれぞれ受信し、異なるキャラクタに応じて音声の採集と処理を行うことにより、従来技術に見られる同じ時刻に複数人がオンラインで話すと録音効果が悪くなるという問題を解決した。キャラクタ別にオーディオを採集・変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成することにより、従来技術に見られる音声から変換した文字が乱れるという問題を解決した。この方法により、会議シーンにおいては、会議内容の可視化が可能となる。会議のオーディオをテキスト形式に変換してクライアントに送信し、テキスト情報をユーザに提示することにより、ユーザは筋道がよく立って迅速に会議内容を振り返ることができる。ユーザの問合せ時間を節約し、ユーザの読解体験を向上させることができる。
図3は、情報処理方法の別の実施形態の模式図300を示す。当該方法のフローは、以下のステップ(ステップ301~305)を含む。
ステップ301では、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定する。
ステップ302では、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成する。
ステップ303では、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成し、すべてのオーディオデータに対して組み合せ動作を行い、すべてのオーディオデータに対応する第1のオーディオデータを生成する。
本実施形態では、実行主体はマージ動作指令を受信しかつマージがマージ終了条件を満たしていないと判断した後、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成し、すべてのオーディオデータに対して、各オーディオデータの開始時刻に応じてすべてのオーディオデータをソートすることを表すための組み合せ動作を行い、すべてのオーディオデータに対応する第1のオーディオデータを生成することができる。
本実施形態のいくつかのオプション的な実施形態では、マージ動作指令は、クライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、またはマージ動作指令は、現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる。様々なマージ動作指令のトリガ条件を設けることにより、柔軟で多様なテキストマージを実現し、システムおよびユーザの様々なニーズを満たすとともに、システム効率を向上させることができる。
ステップ304では、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応するオーディオ総持続時間を確定する。
本実施形態では、実行主体は、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応するオーディオ総持続時間を確定することができ、オーディオ総持続時間は、ある期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表す。
ステップ305では、マージ終了条件を満たしたことに応答して、各第1のテキストをマージし、各第1のテキストに対応する第2のテキストを生成し、第2のテキスト、第1のオーディオデータ、およびオーディオ総持続時間を各クライアントまたは指定したクライアントに送信する。
本実施形態では、実行主体は、マージがマージ終了条件を満たしたと判断した後、各第1のテキストをマージし、各第1のテキストに対応する第2のテキストを生成し、そして第2のテキスト、ステップ303で生成された第1のオーディオデータ、およびステップ304で確定されたオーディオ総持続時間を各クライアントまたは指定したクライアントに送信してユーザに表示することができる。
なお、上述した条件判断およびデータ統合方法は、現在広く研究および適用されている公知技術であり、ここではこれ以上説明しない。
本実施形態では、ステップ301および302の具体的な動作は、図1に示す実施形態におけるステップ101および102の動作と実質的に同じであり、ここではこれ以上説明しない。
図3から分かるように、図1に対応する実施形態と比較して、本実施形態における情報処理方法の模式図300は、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成し、すべてのオーディオデータに対して組み合せ動作を行い、すべてのオーディオデータに対応する第1のオーディオデータを生成し、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応するオーディオ総持続時間を確定し、マージ終了条件を満たしたことに応答して、各第1のテキストをマージし、各第1のテキストに対応する第2のテキストを生成し、第2のテキスト、第1のオーディオデータ、およびオーディオ総持続時間を各クライアントまたは指定したクライアントに送信することにより、既存の第三者ソフトウェアがローカル機器の音声しか録音できず、会議中に他の端末から伝送される音声に音漏れ、畳音(duplication)、音の低減などが発生しやすいという問題を解決し、より豊富な情報伝送を実現した。これにより、音声、文字、音声関連情報などを含むより網羅的で多様な情報をユーザに提示することができる。
図4は、本出願に係る情報処理システムの一実施形態の構成模式図400を示す。図4に示すように、この情報処理システムは、情報処理要求を受信したことに応答して、各キャラクタの異なる時刻のオーディオデータを採集し、オーディオデータをサーバに送信し、サーバから送信された第2のテキストを受信したことに応答して、各キャラクタ識別子および対応する各開始時刻に基づいて、図5に示すように第2のテキストを表示するように構成されるクライアント401と、上記の情報処理方法を実行するように構成されるサーバ402と、を含む。具体的には、テキストを表示する過程で、同じ時間帯に複数人が発話する場合、発話時間の早いから遅い順にソートし、複数人の発話の開始時間が同じである場合、発話者の名前の頭文字、数字順にソートする。
システムにおいて、クライアントはさらに、サーバから送信された第1のオーディオデータを受信したことに応答して、第1のオーディオデータに対応する音声マップを表示するように構成されている。クライアントはサーバから送信された第1のオーディオデータを受信した場合、図5に示すように第1のオーディオデータに対応する音声マップをユーザに提示することができる。
システムにおいて、クライアントはさらに、音声マップにトリガされた再生動作を受信したことに応答して、再生動作に対応するオーディオデータを取得し、オーディオデータに基づいて、オーディオデータに対応する各キャラクタ識別子、キャラクタ識別子に対応する各開始時刻、およびキャラクタ識別子と開始時刻とに対応する各テキスト情報を確定し、表示された第2のテキストにトリガされた選択動作を受信したことに応答して、選択動作に対応する第2のテキストにおけるテキスト情報を取得し、第2のテキストにおけるテキスト情報に基づいて、テキスト情報に対応するオーディオデータを確定し、オーディオデータが示す音声を再生し、音声に対応するテキスト情報が現在のページにあることに応答して、音声に対応する各テキスト情報を表示するように構成されている。これにより、同じ時刻に複数人が発話した場合には、複数人の文字の位置特定を同時に行い、文字ごとにハイライト表示することができる。テキストと音声の相互位置特定により、音声再生中にテキストは、音声再生に伴って自動的にスクロールするとともに文字ごとにハイライト表示される。
システムにおいて、クライアントはさらに、音声に対応するテキスト情報が現在のページに存在しないことを検出したことに応答して、ジャンプボタンを表示するように構成されている。これにより、文字の段落全体が積み重ねられて表示されており、ユーザはキー情報を迅速に位置特定、認識することができず、音声再生中にユーザは対応するテキスト情報に高度に注意を払う必要があり、労力がかかり、読みにくいという問題を解決し、キー情報を位置特定、認識する効率を向上させることができる。
システムにおいて、クライアントはさらに、サーバから送信されたキャラクタ識別子に対応するオーディオ総持続時間を受信したことに応答して、キャラクタ識別子に基づいてオーディオ総持続時間を表示するように構成されている。これにより、より豊富で多様な情報提示を実現し、ユーザの異なるニーズに応えることができる。
システムにおいて、クライアントはさらに、第2のテキストおよび議事録テンプレートに基づいて、図5に示すように第2のテキストに対応する議事録を生成するように構成されている。テキストマージとテキスト統合を通じて、会議ごとのすべての発話者のテキストをマージして完全な会議内容に復元することにより、ユーザは必要に応じてテキストをスクロール閲覧、検索し、発話者、発話時間、発話内容の提示形式を採用して、より明確かつ系統的に会議内容を読むことができるため、ユーザのエネルギーを節約し、読解体験を向上させることができる。
図4から分かるように、この情報処理システムにより、文字段落全体が積み重ねられて表示されており、ユーザはキー情報を迅速に位置特定、認識することができないという問題を解決した。ユーザはテキスト内容を直接コピーしたり、会議のキー情報を抜粋したりして関連文書(例えば、議事録)を作成することができるため、文書作成の効率が向上している。テキストと音声マップを同時に表示することにより、より豊富な情報提示を実現し、ユーザの多様なニーズをさらに満たすことができる。
さらに図6を参照すると、本出願では、上述した図1~3に示す方法の実装として、様々な電子機器に具体的に適用可能な情報処理装置の一実施形態を提供する。この装置の実施形態は、図1に示す方法の実施形態に対応する。
図6に示すように、本実施形態に係る情報処理装置600は、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定するように構成される受信ユニット601と、受信した各オーディオデータを変換して、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成するように構成される変換ユニット602と、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成するように構成されるマージユニット603と、マージ終了条件を満たしたことに応答して、各第1のテキストに対して、キャラクタ識別子および開始時刻に応じて各第1のテキストを順列組合することを表すための統合動作を行い、各第1のテキストに対応する第2のテキストを生成するように構成される情報処理ユニット604と、を含む。
本実施形態では、情報処理装置600の受信ユニット601、変換ユニット602、マージユニット603および情報処理ユニット604の具体的な処理およびそれによる技術的効果については、それぞれ図1に対応する実施形態におけるステップ101~104に対する説明を参照することができる。ここではこれ以上説明しない。
本実施形態のいくつかのオプション的な実施形態では、マージユニットのマージ動作指令はクライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、またはマージユニットのマージ動作指令は現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる。
本実施形態のいくつかのオプション的な実施形態では、装置は、第2のテキストを各クライアントまたは指定したクライアントに送信するように構成される情報送信ユニットをさらに含む。
本実施形態のいくつかのオプション的な実施形態では、装置は、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのオーディオデータに対して、各オーディオデータの開始時刻に応じてすべてのオーディオデータをソートすることを表すための組み合わせ動作を行い、すべてのオーディオデータに対応する第1のオーディオデータを生成するように構成される生成ユニットをさらに含み、情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、第1のオーディオデータを各クライアントまたは指定したクライアントに送信するように構成されている。
本実施形態のいくつかのオプション的な実施形態では、装置は、各オーディオデータの持続時間に基づいて、キャラクタ識別子に対応する、ある期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表すためのオーディオ総持続時間を確定するように構成される確定ユニットをさらに含み、情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、オーディオ総持続時間を各クライアントまたは指定したクライアントに送信するように構成されている。
図7は、本発明の実施形態に係る情報処理方法を実行するための電子機器のブロック図である。電子機器は、ラップトップ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことが意図されている。電子機器はまた、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置、および他の同様のコンピューティング装置のような様々な形態のモバイル装置を表すことができる。本出願に示すコンポーネント、それらの接続および関係、ならびにそれらの機能は、一例に過ぎず、本出願に記載されたおよび/または要求される本出願の実装を限定することは意図されていない。
図7に示すように、この電子機器は、1つまたは複数のプロセッサ701と、メモリ702と、高速インターフェースおよび低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで互いに接続されており、共通マザーボードに実装されていてもよく、必要に応じて他の方法で実装されていてもよい。プロセッサは、インターフェースに結合された表示装置などの外部入出力装置上にGUIのグラフィック情報を表示するために、メモリまたはメモリ上に格納された指令を含む電子機器内で実行される指令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数のバスは、必要に応じて、複数のメモリおよび複数のメモリとともに使用されてもよい。同様に、複数の電子機器を接続することができ、各機器は、部分的に必要な動作(例えば、サーバアレイ、ブレードサーバのセット、またはマルチプロセッサシステムとして)を提供することができる。図7では、1つのプロセッサ701を例に挙げている。
メモリ702は、本出願によって提供される非一時的コンピュータ可読記憶媒体である。ここで、メモリには、少なくとも1つのプロセッサに、本出願によって提供される情報処理方法を実行させるために、少なくとも1つのプロセッサによって実行可能な指令が格納されている。本出願の非一時的コンピュータ可読記憶媒体は、本出願によって提供される情報処理方法をコンピュータに実行させるためのコンピュータ指令を記憶する。
メモリ702は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム、並びに本実施形態における情報処理方法に対応するプログラム指令/モジュール(例えば、図6に示す受信ユニット601、変換ユニット602、マージユニット603、情報処理ユニット604)のようなモジュールを記憶するために使用されることができる。プロセッサ701は、メモリ702に記憶された非一時的ソフトウェアプログラム、指令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する。すなわち、上述した方法の実施形態における情報処理方法を実現する。
メモリ702は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションを記憶することができるプログラム記憶領域と、情報処理方法を実行する電子機器の使用に応じて作成されたデータなどを記憶することができるデータ記憶領域と、を含むことができる。さらに、メモリ702は、高速ランダムアクセスメモリを含むことができ、少なくとも1つのディスク記憶装置、フラッシュメモリ装置、または他の非一時的ソリッドステート記憶装置のような非一時的メモリを含むこともできる。いくつかの実施形態では、メモリ702は、任意に、プロセッサ701に対して遠隔設定されたメモリを含み、これらの遠隔メモリは、ネットワークを介して情報処理方法を実行する電子機器に接続されることができる。上述したネットワークの例は、インターネット、企業内ネットワーク、ローカルエリアネットワーク、移動通信網、およびそれらの組み合わせを含むが、これらに限定されない。
情報処理方法を実行するための電子機器は、入力装置703と、出力装置704と、をさらに含むことができる。プロセッサ701、メモリ702、入力装置703、および出力装置704は、バスまたは他の方法で接続されることができる。図7は、バスを介して接続されている例を示す。
入力装置703は、入力された数字または文字情報を受信し、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングレバー、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの情報処理方法を実行する電子機器のユーザ設定および機能制御に関するキー信号入力を生成することができる。出力装置704は、表示装置、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)などを含むことができる。表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本出願に記載されたシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向け集積回路(ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装されてもよい。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムに実装されることを含むことができる。この1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈することができる。このプログラマブルプロセッサは、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、データおよび命令を記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に送信することができる専用または汎用プログラマブルプロセッサであってもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含む。これらのコンピュータプログラムは、高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を使用して実施されることができる。本出願で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置(PLD))を意味する。それには、機械可読信号として機械命令を受信する機械可読媒体が含まれる。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
ユーザとのやりとりを提供するために、本出願に記載されたシステムおよび技術は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボードおよびポインティング装置(例えば、マウスまたはトラックボール)と、を有するコンピュータ上で実施されてもよく、ユーザは、キーボードおよびポインティング装置を介して入力をコンピュータに提供することができる。他の種類の装置はまた、ユーザとのやりとりを提供するために使用されてもよく、例えば、ユーザに提供されるフィードバックは、任意の形態のセンサフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、ユーザからの入力は、任意の形態(音響入力、音声入力、または触覚入力を含む)で受信されてもよい。
本出願に記載されたシステムおよび技術は、バックグラウンドコンポーネントを含むコンピュータシステム(例えば、データサーバとして)、またはミドルウェアコンポーネントを含むコンピュータシステム(例えば、アプリケーションサーバ)、または前側コンポーネントを含むコンピュータシステム(例えば、グラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ。ユーザは、グラフィカルユーザインターフェースまたはウェブブラウザを介して、本出願に記載されたシステムおよび技術の実施形態と相互作用することができる。)、またはそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、または前側コンポーネントの任意の組み合わせを含む計算システムにおいて実装されることができる。システムのコンポーネントは、任意の形態または媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、通常互いに離れており、一般に通信ネットワークを介して相互作用する。クライアントとサーバの関係は、対応するコンピュータ上で実行され、互いにクライアント/サーバ関係にあるコンピュータプログラムによって生成される。
本出願の実施形態の技術的解決手段によれば、各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各オーディオデータに基づいて、各オーディオデータのキャラクタ識別子と、キャラクタ識別子に対応する各オーディオデータの開始時刻とを確定し、受信した各オーディオデータを変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻とに対応する各テキスト情報を生成し、マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報をマージし、キャラクタ識別子と開始時刻に対応する各第1のテキストを生成し、マージ終了条件を満たしたことに応答して、各第1のテキストをマージし、各第1のテキストに対応する第2のテキストを生成することにより、複数のクライアントにおける異なるキャラクタのオーディオデータを受信・変換したうえ、テキスト統合を経て送信情報を確定する方法を実現した。各クライアントにおける異なるキャラクタのオーディオデータをそれぞれ受信し、異なるキャラクタに応じて音声の採集と処理を行うことにより、従来技術に見られる同じ時刻に複数人がオンラインで話すと録音効果が悪くなるという問題を解決した。キャラクタ別にオーディオを採集・変換し、オーディオデータのキャラクタ識別子とオーディオデータの開始時刻に対応する各テキスト情報を生成することにより、従来技術に見られる音声から変換した文字が乱れるという問題を解決した。この方法により、会議シーンにおいては、会議内容の可視化が可能となる。会議のオーディオをテキスト形式に変換してクライアントに送信し、テキスト情報をユーザに提示することにより、ユーザは筋道がよく立って迅速に会議内容を振り返ることができる。ユーザの問合せ時間を節約し、ユーザの読解体験を向上させることができる。
なお、上述した様々な形態のフローを用いて、ステップを改めて並び替え、追加または削除を行うことができる。例えば、本出願に記載された各ステップは、本出願に開示された技術案の所望の結果が達成できる限り、並行して実行されてもよいし、順番で実行されてもよいし、異なる順番で実行されてもよい。本明細書はここで制限しない。
上記具体的な実施形態は、本出願の保護範囲を限定するものではない。設計要件および他の要因に従って、様々な修正、組み合わせ、副次的な組み合わせ、および置換を行うことができることを当業者は理解すべきである。本出願の趣旨および原理を逸脱せずに行われたあらゆる修正、均等な置換および改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (19)

  1. 各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各前記オーディオデータに基づいて、各前記オーディオデータのキャラクタ識別子と、前記キャラクタ識別子に対応する各前記オーディオデータの開始時刻と、を確定するステップと、
    受信した各オーディオデータを変換して、前記オーディオデータのキャラクタ識別子と前記オーディオデータの開始時刻とに対応する各テキスト情報を生成するステップと、
    マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、前記キャラクタ識別子と開始時刻とに対応する各第1のテキストを生成するステップであって、各第1のテキストの対応する開始時刻は、当該第1のテキストのキャラクタ識別子を有するオーディオデータの中の最初のオーディオデータの対応する開始時刻である、ステップと、
    マージ終了条件を満たしたことに応答して、各前記第1のテキストに対して、キャラクタ識別子および開始時刻に基づいて各前記第1のテキストを順列組合することを表すための統合動作を行い、第2のテキストを生成するステップと、を含む情報処理方法。
  2. 前記マージ動作指令は、クライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、または現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる、請求項1に記載の情報処理方法。
  3. 前記第2のテキストを各前記クライアントまたは指定したクライアントに送信するステップをさらに含む、請求項1に記載の情報処理方法。
  4. マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのオーディオデータに対して、各オーディオデータの開始時刻に基づいてすべてのオーディオデータをソートすることを表すための組み合わせ動作を行い、すべてのオーディオデータに対応する第1のオーディオデータを生成するステップと、
    マージ終了条件を満たしたことに応答して、前記第1のオーディオデータを各前記クライアントまたは指定したクライアントに送信するステップと、をさらに含む、請求項1に記載の情報処理方法。
  5. 特定の期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表すための、キャラクタ識別子に対応するオーディオ総持続時間を、各前記オーディオデータの持続時間に基づいて確定するステップと、
    マージ終了条件を満たしたことに応答して、前記オーディオ総持続時間を各前記クライアントまたは指定したクライアントに送信するステップと、をさらに含む、請求項1に記載の情報処理方法。
  6. 情報処理要求を受信したことに応答して、各キャラクタの異なる時刻におけるオーディオデータを採集し、前記オーディオデータをサーバに送信し、サーバから送信された前記第2のテキストを受信したことに応答して、各キャラクタ識別子および対応する各開始時刻に基づいて、前記第2のテキストを表示するように構成されるクライアントと、
    請求項1~5のいずれか1項に記載の情報処理方法を実行するように構成されるサーバと、を含む、情報処理システム。
  7. 前記クライアントはさらに、サーバから送信された第1のオーディオデータを受信したことに応答して、前記第1のオーディオデータに対応する音声マップを表示するように構成されている、請求項6に記載の情報処理システム。
  8. 前記クライアントはさらに、
    前記音声マップに対してトリガされた再生動作を受信したことに応答して、再生動作に対応するオーディオデータを取得し、前記オーディオデータに基づいて、前記オーディオデータに対応する各キャラクタ識別子と、前記キャラクタ識別子に対応する各開始時刻と、前記キャラクタ識別子および前記開始時刻に対応する各テキスト情報と、を確定し、
    表示された前記第2のテキストに対してトリガされた選択動作を受信したことに応答して、選択動作に対応する前記第2のテキストにおけるテキスト情報を取得し、前記第2のテキストにおけるテキスト情報に基づいて、前記テキスト情報に対応するオーディオデータを確定し、
    前記オーディオデータが表す音声を再生し、前記音声に対応するテキスト情報が現在のページにあることに応答して、前記音声に対応する各テキスト情報を表示するように構成されている、請求項7に記載の情報処理システム。
  9. 前記クライアントはさらに、前記音声に対応するテキスト情報が現在のページに存在していないことを検出したことに応答して、ジャンプボタンを表示するように構成されている、請求項8に記載の情報処理システム。
  10. 前記クライアントはさらに、サーバから送信された、キャラクタ識別子に対応するオーディオ総持続時間を受信したことに応答して、キャラクタ識別子に基づいて前記オーディオ総持続時間を表示するように構成されている、請求項6に記載の情報処理システム。
  11. 前記クライアントはさらに、前記第2のテキストおよび議事録テンプレートに基づいて、前記第2のテキストに対応する議事録を生成するように構成されている、請求項6に記載の情報処理システム。
  12. 各クライアントから送信された対応するキャラクタのオーディオデータストリームを受信し、各前記オーディオデータに基づいて、各前記オーディオデータのキャラクタ識別子と、前記キャラクタ識別子に対応する各前記オーディオデータの開始時刻と、を確定するように構成される受信ユニットと、
    受信した各オーディオデータを変換して、前記オーディオデータのキャラクタ識別子と前記オーディオデータの開始時刻とに対応する各テキスト情報を生成するように構成される変換ユニットと、
    マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのテキスト情報に対して、同じキャラクタ識別子のテキスト情報をマージすることを表すためのマージ動作を行い、前記キャラクタ識別子と前記開始時刻とに対応する各第1のテキストを生成するように構成されるマージユニットであって、各第1のテキストの対応する開始時刻は、当該第1のテキストのキャラクタ識別子を有するオーディオデータの中の最初のオーディオデータの対応する開始時刻である、マージユニットと、
    マージ終了条件を満たしたことに応答して、各前記第1のテキストに対して、キャラクタ識別子および開始時刻に基づいて各前記第1のテキストを順列組合することを表すための統合動作を行い、第2のテキストを生成するように構成される情報処理ユニットと、を含む情報処理装置。
  13. 前記マージユニットの前記マージ動作指令は、
    クライアントから送信された同じキャラクタのオーディオデータストリームを受信したことに応答してトリガされるか、または現在の時点が予め設定された閾値に規定された時点を超えたことに応答してトリガされる、請求項12に記載の情報処理装置。
  14. 前記第2のテキストを各前記クライアントまたは指定したクライアントに送信するように構成される情報送信ユニットをさらに含む、請求項12に記載の情報処理装置。
  15. マージ動作指令を受信しかつマージ終了条件を満たしていないことに応答して、すべてのオーディオデータに対して、各オーディオデータの開始時刻に基づいてすべてのオーディオデータをソートすることを表すための組み合わせ動作を行い、すべてのオーディオデータに対応する第1のオーディオデータを生成するように構成される生成ユニットをさらに含み、
    前記情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、前記第1のオーディオデータを各前記クライアントまたは指定したクライアントに送信するように構成されている、請求項14に記載の情報処理装置。
  16. 特定の期間内に同じキャラクタ識別子の各オーディオデータの累積時間を表すための、キャラクタ識別子に対応するオーディオ総持続時間を、各前記オーディオデータの持続時間に基づいて確定するように構成される確定ユニットをさらに含み、
    前記情報送信ユニットはさらに、マージ終了条件を満たしたことに応答して、前記オーディオ総持続時間を各前記クライアントまたは指定したクライアントに送信するように構成されている、請求項14に記載の情報処理装置。
  17. 少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されるメモリとを含む電子機器であって、
    前記メモリに前記少なくとも1つのプロセッサによって実行可能な指令が格納されており、前記指令が前記少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに請求項1~5のいずれか1項に記載の情報処理方法を実行する、電子機器。
  18. コンピュータ指令が格納されている非一時的コンピュータ可読記憶媒体であって、
    前記コンピュータ指令はコンピュータに請求項1~5のいずれか1項に記載の情報処理方法を実行させるためのものである、非一時的コンピュータ可読記憶媒体。
  19. プロセッサにより実行されると、請求項1~5のいずれか1項に記載の情報処理方法を実現するコンピュータプログラム。
JP2021099367A 2020-10-22 2021-06-15 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム Active JP7331044B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011140819.XA CN112270918A (zh) 2020-10-22 2020-10-22 信息处理方法、装置、系统、电子设备及存储介质
CN202011140819.X 2020-10-22

Publications (2)

Publication Number Publication Date
JP2022050309A JP2022050309A (ja) 2022-03-30
JP7331044B2 true JP7331044B2 (ja) 2023-08-22

Family

ID=74341762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021099367A Active JP7331044B2 (ja) 2020-10-22 2021-06-15 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム

Country Status (4)

Country Link
US (1) US20210312926A1 (ja)
EP (1) EP3869505A3 (ja)
JP (1) JP7331044B2 (ja)
CN (1) CN112270918A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254076B (zh) * 2021-12-16 2023-03-07 天翼爱音乐文化科技有限公司 一种多媒体教学的音频处理方法、系统及存储介质
CN114783403B (zh) * 2022-02-18 2024-08-13 腾讯科技(深圳)有限公司 有声读物的生成方法、装置、设备、存储介质及程序产品
CN115457951A (zh) * 2022-05-10 2022-12-09 北京罗克维尔斯科技有限公司 一种语音控制方法、装置、电子设备以及存储介质
CN116112556A (zh) * 2023-01-18 2023-05-12 昆易电子科技(上海)有限公司 数据处理方法、装置、介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011102862A (ja) 2009-11-10 2011-05-26 Advanced Media Inc 音声認識結果管理装置および音声認識結果表示方法
JP2013073323A (ja) 2011-09-27 2013-04-22 Nec Commun Syst Ltd 会議データの統合管理方法および装置
JP2014146066A (ja) 2013-01-25 2014-08-14 Canon Inc 文書データ生成装置、文書データ生成方法及びプログラム
JP2019061594A (ja) 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
JP2019153099A (ja) 2018-03-05 2019-09-12 コニカミノルタ株式会社 会議支援システム及び会議支援プログラム
US20200211561A1 (en) 2018-12-31 2020-07-02 HED Technologies Sari Systems and methods for voice identification and analysis

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171179B2 (en) * 2011-12-19 2015-10-27 J. Michael Miller System and method for the provision of multimedia materials
CN103903074B (zh) * 2012-12-24 2018-10-30 华为技术有限公司 一种视频交流的信息处理方法及装置
US20150149540A1 (en) * 2013-11-22 2015-05-28 Dell Products, L.P. Manipulating Audio and/or Speech in a Virtual Collaboration Session
US9672829B2 (en) * 2015-03-23 2017-06-06 International Business Machines Corporation Extracting and displaying key points of a video conference
US10424297B1 (en) * 2017-02-02 2019-09-24 Mitel Networks, Inc. Voice command processing for conferencing
US10423382B2 (en) * 2017-12-12 2019-09-24 International Business Machines Corporation Teleconference recording management system
US10467335B2 (en) * 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US10977299B2 (en) * 2018-05-30 2021-04-13 Baidu Usa Llc Systems and methods for consolidating recorded content
US11315569B1 (en) * 2019-02-07 2022-04-26 Memoria, Inc. Transcription and analysis of meeting recordings
CN110322869B (zh) * 2019-05-21 2023-06-16 平安科技(深圳)有限公司 会议分角色语音合成方法、装置、计算机设备和存储介质
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011102862A (ja) 2009-11-10 2011-05-26 Advanced Media Inc 音声認識結果管理装置および音声認識結果表示方法
JP2013073323A (ja) 2011-09-27 2013-04-22 Nec Commun Syst Ltd 会議データの統合管理方法および装置
JP2014146066A (ja) 2013-01-25 2014-08-14 Canon Inc 文書データ生成装置、文書データ生成方法及びプログラム
JP2019061594A (ja) 2017-09-28 2019-04-18 株式会社野村総合研究所 会議支援システムおよび会議支援プログラム
JP2019153099A (ja) 2018-03-05 2019-09-12 コニカミノルタ株式会社 会議支援システム及び会議支援プログラム
US20200211561A1 (en) 2018-12-31 2020-07-02 HED Technologies Sari Systems and methods for voice identification and analysis

Also Published As

Publication number Publication date
EP3869505A2 (en) 2021-08-25
CN112270918A (zh) 2021-01-26
EP3869505A3 (en) 2021-12-15
JP2022050309A (ja) 2022-03-30
US20210312926A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
KR102320708B1 (ko) 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체
JP7181332B2 (ja) 音声変換方法、装置及び電子機器
JP6751122B2 (ja) ページ制御方法および装置
JP7083270B2 (ja) 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ
US5632002A (en) Speech recognition interface system suitable for window systems and speech mail systems
US20150325237A1 (en) User query history expansion for improving language model adaptation
JP2019522250A (ja) マルチタスキング環境におけるインテリジェントデジタルアシスタント
CN107040452B (zh) 一种信息处理方法、装置和计算机可读存储介质
CN110311858B (zh) 一种发送会话消息的方法与设备
KR102331254B1 (ko) 음성 인식 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
US11488585B2 (en) Real-time discussion relevance feedback interface
EP3916538A1 (en) Creating a cinematic storytelling experience using network-addressable devices
KR102358012B1 (ko) 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체
US8868419B2 (en) Generalizing text content summary from speech content
CN109462546A (zh) 一种语音对话历史消息记录方法、装置及系统
JP7556063B2 (ja) 動画の編集方法、装置、電子機器、媒体
US20210074265A1 (en) Voice skill creation method, electronic device and medium
JP7230803B2 (ja) 情報処理装置および情報処理方法
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
WO2021259073A1 (en) System for voice-to-text tagging for rich transcription of human speech
JP2022020062A (ja) 特徴情報のマイニング方法、装置及び電子機器
CN111768756A (zh) 信息处理方法、装置、车辆和计算机存储介质
JP7166373B2 (ja) 音声ファイルに対するテキスト変換記録とメモをともに管理する方法、システム、およびコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230809

R150 Certificate of patent or registration of utility model

Ref document number: 7331044

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150