JP2024506495A - 議事録の処理方法、装置、機器及び媒体 - Google Patents

議事録の処理方法、装置、機器及び媒体 Download PDF

Info

Publication number
JP2024506495A
JP2024506495A JP2023544227A JP2023544227A JP2024506495A JP 2024506495 A JP2024506495 A JP 2024506495A JP 2023544227 A JP2023544227 A JP 2023544227A JP 2023544227 A JP2023544227 A JP 2023544227A JP 2024506495 A JP2024506495 A JP 2024506495A
Authority
JP
Japan
Prior art keywords
sentence
text
conference
sentences
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023544227A
Other languages
English (en)
Inventor
ドゥ,チュンサイ
ヤン,ジンシォン
チェン,クゥーロン
ヂォン,シャン
シュ,ウェンミン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Publication of JP2024506495A publication Critical patent/JP2024506495A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2024506495000001
議事録の処理方法、装置、機器及び媒体である。本方法は、会議オーディオ・ビデオの会議テキストを取得するステップ(101)と、会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップ(102)と、初期ToDo文を時制判断モデルに入力して、初期ToDo文の時制の結果を決定するステップ(103)と、時制の結果に基づいて、初期ToDo文における会議ToDo文を決定するステップ(104)とを含む。上記の方法によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、会議ToDo文を決定する正確性を高めることができ、さらに会議ToDo文によるユーザの作業効率を高め、ユーザの体験効果を向上させることができる。

Description

本出願は、2021年01月27日に中国国家知識産権局へ提出された、出願番号が202110113700.1であって、出願の名称が「議事録の処理方法、装置、機器及び媒体」である中国特許出願に対する優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。
本開示は、会議認識の技術分野に関し、特に議事録の処理方法、装置、機器及び媒体に関する。
インテリジェントデバイスやマルチメディア技術の継続的な発展に伴い、インテリジェントデバイスを介したオンライン会議は、コミュニケーション効率や情報保存などの面での顕著な表現により、日常生活やオフィス生活でますます利用されるようになってきた。
会議終了後のオーディオ・ビデオは、認識処理によってテキストに変換され、当該テキストからタスク意図を含むToDo文を決定することができる。しかし、ToDo文の決定には、効率が低く、正確性が高くないという問題がある。
上記の技術的課題を解決するか、または少なくとも部分的に上記の技術的課題を解決するために、本開示は、議事録の処理方法、装置、機器及び媒体を提供する。
本開示の実施形態は、
会議オーディオ・ビデオの会議テキストを取得するステップと、
前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップと、
前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するステップと、
前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するステップと、
を含む、議事録の処理方法を提供する。
本開示の実施形態は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップと、
を含む、議事録の処理方法をさらに提供する。
本開示の実施形態は、
会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュールと、
前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するための初期ToDoモジュールと、
前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するための時制判断モジュールと、
前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するための会議ToDoモジュールと、
を含む、議事録の処理装置をさらに提供する。
本開示の実施形態は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュールであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュールと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュールと、
を含む、議事録の処理装置をさらに提供する。
本開示の実施形態は、プロセッサと、前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、前記メモリから前記実行可能な命令を読み取って実行することで、本開示の実施形態に係る議事録の処理方法を実現するために使用される、電子機器をさらに提供する。
本開示の実施形態は、本開示の実施形態に係る議事録の処理方法を実行するためのコンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供する。
本開示の実施形態に係る技術方案は従来の技術と比べて、以下の利点がある。本開示の実施形態に係る議事録の処理方法において、会議オーディオ・ビデオの会議テキストを取得するステップと、会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップと、初期ToDo文を時制判断モデルに入力して、初期ToDo文の時制の結果を決定するステップと、時制の結果に基づいて、初期ToDo文における会議ToDo文を決定するステップとを含む。上記の技術方案によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、既に完成した文が会議ToDo文として認識されることは避けられ、会議ToDo文を決定する正確性を大幅に高め、さらに、会議ToDo文によるユーザの作業効率を高めることができ、ユーザの体験効果を向上させる。
本開示の各実施例の前述及び他の特徴、利点及び態様は、添付の図面と併せて、以下の具体的な実施形態を参照すると、より明らかになるであろう。図面全体において、同じまたは類似の図面符号は同じまたは類似の要素を示す。図面は概略図であって、部品及び要素は必ずしも一定の縮尺で描かれるわけではないことは、理解されるべきであろう。
本開示の一実施形態に係る議事録の処理方法のフローチャートである; 本開示の別の実施形態に係る議事録の処理方法のフローチャートである; 本開示の一実施形態に係る議事録表示インターフェースの概略図である; 本開示の一実施形態に係る議事録の処理装置の構成概略図である; 本開示の一実施形態に係る議事録の処理装置の構成概略図である; 本開示の一実施形態に係る電子機器の構造概略図である。
以下で、図面を参照しながら本開示の実施例をより詳しく説明する。本開示のいくつかの実施例は図面に示されているが、本開示は様々な形態で実現されることができ、本明細書に記載の実施例に限定されるものと解釈されるべきではなく、むしろこれらの実施例は本開示をより深くかつ完全に理解するために提供されることは理解されるべきであろう。また本開示の図面及び実施例は、例示的な目的のために挙げられるだけであって、本開示の保護範囲を限定するものではないことは理解されるべきであろう。
本開示の方法実施形態に記載される各ステップは、異なる順序に従って実行され、及び/または並行して実行され得ることは理解されるべきであろう。さらに、方法実施形態は、追加のステップを含み、及び/または図示されるステップの実行を省略し得る。本開示の範囲はこの点において限定されない。
本明細書に使用される「含む」という用語及びその変形は、自由形式の包含、即ち「含むがこれらに限定されない」という意味である。「に基づく」という用語は、「少なくとも部分的に基づく」という意味である。「一実施形態」という用語は、「少なくとも1つの実施形態」を意味し、「別の実施形態」という用語は、「少なくとも1つの別の実施形態」を意味し、「いくつかの実施形態」という用語は、「少なくともいくつかの実施形態」を意味する。また他の用語に関連する定義は、以下で説明される。
なお、本開示に言及される「第1」、「第2」などの概念は、異なる装置、モジュールまたはユニットを区別するためにのみ使用されるが、これらの装置、モジュールまたはユニットによって実行される機能の順序または相互依存関係を限定するものではないことに注意されたい。
なお、本開示に言及される「1つ」及び「複数」などの修飾は、限定的ではなく例示的であり、文脈において明示的に特段の指示がない限り、「1つ以上」として解釈されるべきであるは、当業者に理解されるべきであろう。
本開示の実施形態において複数の装置間でやり取りされるメッセージまたは情報の名称は例示のみを目的として使用され、これらのメッセージまたは情報の範囲を制限するために使用されるものではない。
会議終了後、会議オーディオ・ビデオを、認識処理によってテキストに変換することができる。ところが、通常、会議テキストの内容が多いため、タスク意図を含む文を如何に迅速かつ正確に抽出するかが特に重要となる。会議の内容はある1つまたは複数の話題について議論する記録であり、最終的にある程度の結論を導き出したり、他の多くの議題を連想したりする場合が多い。また、会議中に完了する必要があるタスクを多く配分することが多いが、会議の会議テキストは文字数が多く含まれているため、完了する必要がある意図(todo)を含むタスクを選び出すことができれば、議事録の整理にかかる手間が大きく削減できるであろう。その中で、ToDo文は意図の1つのタイプであり得る。しかし、現在、ToDo文の決定には、効率が低く、正確性が高くないという問題があった。上記の問題を解決すべく、本開示の実施形態は議事録の処理方法を提供する。以下、具体的な実施形態を参照しながら、この方法を説明する。
図1は、本開示の一実施形態に係る議事録の処理方法のフローチャートである。この方法は議事録の処理装置によって実行され得る。ここで、この装置はソフトウェア及び/またはハードウェアによって実現され、一般に電子機器に統合され得る。図1に示すように、この方法は、以下のステップを含むことができる。
ステップS101:処理装置によって、会議オーディオ・ビデオの会議テキストを取得する。
会議オーディオ・ビデオとは、会議プロセスを記録するためのオーディオ及び/またはビデオを意味する。また、会議テキストとは、会議オーディオ・ビデオを音声認識処理することで得られたテキスト内容である。
本開示の実施形態では、処理装置は、オーディオ・ビデオ処理によって得られた会議テキストを取得することができ、処理装置は、会議オーディオ・ビデオを取得し、会議オーディオ・ビデオを処理することによって会議テキストを取得することもできる。
ステップS102:処理装置は、会議テキストをToDo認識モデルに入力して、初期ToDo文を決定する。
ToDo認識モデルは、会議テキストからToDo意図文を認識するための事前トレーニング済みの深層学習モデルであり、具体的に使用される深層学習モデルは限定されない。
本開示の実施形態では、ステップS102が実行される前に、処理装置はまた、ToDo認識モデルを生成することができる。ToDo認識モデルは、次の方法によって生成される。即ち、ToDo文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、ToDo認識モデルを得る。ネガティブサンプルの境界なし性を考慮して、本開示の実施形態では、ToDo認識モデルを単一分類モデルとすることを例に取り上げて説明する。単一分類モデルは、特別な分類タスクモデルであり、このモデルに使用されるトレーニングサンプルには、ポジティブのクラスのタグしかなく、他のサンプルは別のクラスに分類される。ポジティブサンプルの境界を決定し、境界の外側にあるデータは別のクラスに分類されると理解されてもよい。
ToDo文のポジティブサンプルは、ポジティブタグが付けられたサンプルである、即ち会議ToDo文として決定されたサンプルであり得る。ToDo文のポジティブサンプル数は制限されず、実際の状況に応じて設定可能である。具体的に、処理装置は、ToDo文のポジティブサンプルを初期単一分類モデルに入力してモデルトレーニングを行い、トレーニング済みの単一分類モデル、即ちToDo認識モデルを得ることができる。
本開示の実施形態では、処理装置が、会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップは、処理装置が、会議テキストにおけるテキスト文を文ベクトルに変換し、文ベクトルをToDo認識モデルに入力して、初期ToDo文を決定するステップを含むことができる。テキスト文は、会議テキストを文セグメント化または分割することによって得られ、テキスト文の数は複数であってもよい。
処理装置は、会議テキストに含まれる各テキスト文を埋め込み(Embedding)レイヤーによって文ベクトルに変換し、各文ベクトルを事前トレーニング済みのToDo認識モデルに入力して、ToDo文の分類結果の予測を行い、戻り値を有する文を、初期ToDo文として決定することができる。ToDo認識モデルは単一分類モデルであるため、球の半径と球心を算出することで分類するものと理解されてもよく、この球はポジティブサンプルの境界であり、球内の空間はToDo文のポジティブサンプルの分布空間を表すものである。
上記の方案では、処理装置は単一分類モデルを利用して会議テキストからToDo文の認識を行うことによって、深層学習モデルをトレーニングするのに必要なデータ量が削減され、モデルトレーニング効率を向上させ、認識精度を向上させる。
ステップS103:処理装置は、初期ToDo文を時制判断モデルに入力して、時制の結果を決定する。
時制判断モデルは、上記のToDo認識モデルと同様に、事前にトレーニング済みのモデルであり、前のステップで認識された初期ToDo文に対して時制判断をさらに行うために使用され、具体的に使用される深層学習モデルは限定されない。時制は、行動、動作及び状態が様々な時間条件下にあることを特徴付ける形式である。時制の結果は、過去形、現在形及び未来形などを含み得る。過去形は過去の時間を表し、現在形は現在の時間を表し、未来形は未来の時間を表すために使用される。
具体的に、処理装置は、ToDo認識モデルを介して会議テキストを認識して初期ToDo文を決定した後、初期ToDo文を事前トレーニング済みの時制判断モデルに入力して、さらに時制判断を行い、時制の結果を決定することができる。時制判断モデルは、3分類モデルであってもよい。
ステップS104:処理装置は、時制の結果に基づいて、初期ToDo文における会議ToDo文を決定する。
会議ToDo文は初期ToDo文とは異なり、最終的に決定されたToDo意図を含む文を指す。
具体的には、時制の結果に基づいて、初期ToDo文における会議ToDo文を決定するステップは、時制の結果が未来形である初期ToDo文を会議ToDo文として決定するステップを含むことができる。上記の各初期ToDo文の時制の結果を決定した後、処理装置は、時制の結果が未来形である初期ToDo文を会議ToDo文とし、時制の結果が過去形と現在形である初期ToDo文を削除して、最終的に会議ToDo文を得ることができる。
本開示の実施形態では、処理装置は深層学習モデルを介して会議テキストに対してToDo意図の認識を行うことによって、議事録における会議ToDo文を整理するのを支援し、ユーザの作業効率を高めることができる。従来の機械学習方法と比較して、ToDo認識モデルは単一分類モデルを用いるため、ネガティブサンプルの判断精度を大幅に向上させることができ、ToDo意図文のネガティブサンプルには境界性がなく、モデルの判断精度が高く、ユーザエクスペリエンスを大幅に向上させることができる。
本開示の実施形態に係る議事録の処理方法では、処理装置は、会議オーディオ・ビデオの会議テキストを取得し;会議テキストをToDo認識モデルに入力して、初期ToDo文を決定し;初期ToDo文を時制判断モデルに入力して、初期ToDo文の時制の結果を決定し;時制の結果に基づいて、初期ToDo文における会議ToDo文を決定する。上記の技術方案によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、既に完成した文が会議ToDo文として認識されるのは避けられ、会議ToDo文を決定する正確性を大幅に高め、さらに、会議ToDo文によるユーザの作業効率を高め、ユーザの体験効果を向上させることができる。
いくつかの実施形態では、会議オーディオ・ビデオの会議テキストを取得した後に、会議テキストを文分割して、複数のテキスト文を得るステップと、所定のルールに基づいてテキスト文を前処理することによって、テキスト文をフィルタリングするステップとをさらに含むことができる。オプションとして、所定のルールに基づいてテキスト文を前処理するステップは、意図語が欠落しているテキスト文を削除する、及び/または、文字列の長さが長さ閾値未満のテキスト文を削除する、及び/または、名詞が欠落しているテキスト文を削除するステップを含む。
テキスト文は、会議テキストを文セグメント化または分割することによって得られ、具体的には、会議テキストを句読点に従って分割して、会議テキストを複数のテキスト文に変換することができる。所定の規則は、複数のテキスト文を処理するための規則であってもよいが、具体的に限定されず、例えば、所定の規則は、死語を削除すること及び/または重複語を削除することであってもよい。
本開示の実施形態では、会議テキストを文分割して複数のテキスト文を得ることができ、次に、各テキスト文に対して単語分割処理を行い、単語分割処理の結果を得るとともに、所定の規則及び単語分割処理の結果に基づいて、テキスト文を前処理することによって、テキスト文をフィルタリングすることができ、前処理されたテキスト文はToDo文になる可能性がより高い。テキスト文を前処理するステップは、各テキスト文の単語分割処理の結果を検索し、意図語及び/または名詞が含まれているかどうかを判断し、意図語及び/または名詞が欠落しているテキスト文を削除するステップを含むことができる。意図語とは、事前に整理された、ToDo意図を含む可能性がある文言を指す。例えば、テキスト文に「完了する必要がある」という文言が含まれている場合、ToDo意図を持っている可能性があり、「完了する必要がある」は意図語である。本開示の実施形態では、前処理のために複数の意図語及び/または名詞を格納するためのシソーラスが設定され得る。
及び/または、テキスト文を前処理するステップは、各テキスト文の文字列の長さを決定して、それぞれ長さ閾値と比較し、文字列の長さが長さ閾値未満のテキスト文を削除するステップを含むことができる。長さ閾値とは、予め設定された文の長さの数値を指し、テキスト文が短すぎる場合、文にならない可能性があるため、長さ閾値を設定することによって短すぎるテキスト文を削除することができる。
オプションとして、所定の規則に基づいてテキスト文を前処理するステップは、所定の文型に基づいてテキスト文に対して文型マッチングを行い、所定の文型を満たさないテキスト文を削除するステップを含むことができる。所定の文型は、ToDo意図を含む可能性が高い文型と理解され得る。所定の文型には様々な文型を含むことができ、例えば、所定の文型は、主語+前置詞+時間語+動詞+目的語とすることができ、対応する文について、「王さん、明日に宿題を終わらせてください」を例に挙げ、この文はToDo文である。各テキスト文を所定の文型と文型マッチングして、所定の文型を満たさないテキスト文を削除する。
本開示の実施形態では、会議テキストを取得した後、複数の所定の規則に基づいて、会議テキストに含まれるテキスト文を前処理することができる。所定の規則はToDo意図に関連しているため、前処理されたテキスト文はToDo文になる可能性が高く、さらに、後続のToDo文の決定の効率及び正確性を向上させる。
図2は、本開示の別の実施形態に係る議事録の処理方法のフローチャートである。この方法は、議事録の処理装置によって実行され得る。ここで、この装置はソフトウェア及び/またはハードウェアによって実現され、一般に電子機器に統合され得る。図2に示すように、この方法は、以下のステップを含むことができる。
ステップS201:処理装置は、議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付け、議事録表示インターフェースには、会議オーディオ・ビデオ、会議オーディオ・ビデオの会議テキスト及びターゲット記録文が表示される。
議事録表示インターフェースとは、予め生成された議事録を表示するためのインターフェースを指す。会議オーディオ・ビデオと会議テキストは、議事録表示インターフェースの異なる領域に別々に表示されている。議事録表示インターフェースには、会議オーディオ・ビデオ、会議オーディオ・ビデオの会議テキスト及び議事録などの会議に関連するコンテンツをそれぞれ表示するためのオーディオ・ビデオ領域、字幕領域及び議事録表示領域などの領域が設置されてもよい。表示トリガー操作とは、議事録における会議ToDo文の表示をトリガーする操作を指し、具体的な方法は限定されず、例えば、表示トリガー操作は、会議ToDo文に対するクリック操作及び/またはホバリング操作であってもよい。
記録文とは、議事録における文を指し、上記の議事録表示領域に表示される。記録文には会議ToDo文が含まれており、会議ToDo文は、記録タイプに対応する記録文であり、上記の実施形態で決定されたToDo文である。議事録とは、会議オーディオ・ビデオを処理することによって生成された会議の主な内容を指す。議事録は様々な種類のものであってもよく、本開示の実施形態では、議事録は議題、議事日程、議論、結論及びToDoなどの少なくとも1種を含むことができ、会議ToDo文は、ToDoの種類に属する文である。
本開示の実施形態では、ユーザが議事録表示インターフェースにおけるコンテンツを閲覧するとき、クライアント端末は、議事録における1つのターゲット記録文に対するユーザの表示トリガー操作を受け付けることができる。
例示的に、図3は、本開示の一実施形態に係る議事録表示インターフェースの概略図である。図3に示すように、議事録表示インターフェース10における第1の領域11には議事録が表示され、第1の領域11の最上部には会議ビデオが表示され、第2の領域12には会議テキストが表示され、議事録表示インターフェース10の最下部には、会議音声が表示され、具体的に会議音声の時間軸を含めることができる。図3には、議題、議事日程、議論、結論、ToDoの5種類の議事録が示されており、そのうちのToDo一覧に3つの会議ToDo文が含まれている。図3における矢印は、第1の会議ToDo文に対する表示トリガー操作を示してもよい。
図3における会議テキストは、会議に参加している様々なユーザに基づいて字幕セグメントを分割することができ、それぞれユーザ1、ユーザ2、及びユーザ3である3人のユーザの字幕セグメントが図示されている。図3において、議事録表示インターフェース10の最上部に、会議のテーマとなる「チームレビュー会議」や会議の関連内容がさらに表示されており、図中の「2019.12.20午前10:00」は、会議の開始時刻を示し、「1h30m30s」は会議の持続時間が1時間30分20秒であることを示し、「16」は参加者人数を示している。なお、図3における議事録表示インターフェース10は一例に過ぎず、その中に含まれるコンテンツの位置も一例であり、具体的な位置及び表示方法は実際の状況に応じて設定可能であることに理解されたい。
ステップS202:処理装置は、ターゲット記録文及びターゲット記録文の関連文を表示する。
関連文は会議テキストに含まれており、ターゲット記録文と位置的に関連付けられた字幕文である。関連文の数は、実際の状況に応じて設定可能であり、例えば、関連文は、会議テキストにおけるターゲット記録文の前後に位置する2つの字幕文であり得る。その数は2であり得る。字幕文は、会議テキストの1構成単位であってもよく、会議テキストを分割することで得られたものである。会議テキストには複数の字幕文が含まれるが、具体的な数は限定されない。
本開示の実施形態では、ターゲット記録文及びターゲット記録文の関連文を表示するステップは、ターゲット記録文及びターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するステップを含むことができる。フローティングウィンドウは、議事録表示インターフェースにおける領域内に表示され、フローティングウィンドウの具体的な位置は、実際の状況に応じて設定可能であり、例えば、フローティングウィンドウの位置は、現在のターゲット記録文を遮らない任意の位置であり得る。
ターゲット記録文に対する表示トリガー操作を受け付けた後、処理装置は1つのフローティングウィンドウをユーザに表示し、ターゲット記録文及びターゲット記録文の関連文をフローティングウィンドウ内に表示することができる。本開示の実施形態では、ターゲット記録文とその前後にある複数の文を表示することによって、ターゲット記録文を単独で表示した場合にユーザが理解しにくくなることは避けられ、ユーザに内容を理解させやすく、記録文の表示効果を向上させることができる。
例示的に、図3を参照すると、第1の領域11に表示された議事録のToDo一覧の最初の下線付きの会議ToDo文は、ターゲット会議ToDo文である。ターゲットToDo文に対して表示トリガーを行うと、フローティングウィンドウ13には、このターゲット会議ToDo文及びターゲットToDo文の関連文が表示される。図中のフローティングウィンドウ13に表示されている関連文は、ターゲット会議ToDo文の前の1文及び後の1文である。
いくつかの実施形態では、議事録の処理方法は、会議オーディオ・ビデオをターゲット記録文の関連期間に基づいて再生するとともに、会議テキストにおけるターゲット記録文の関連字幕を強調表示するステップをさらに含むことができる。ターゲット記録文の関連字幕とは、字幕テキストでのターゲット記録文に対応する字幕を指し、ターゲット記録文の関連期間とは、会議オーディオ・ビデオでの関連字幕に対応する元の会議音声の持続時間を指す。この関連期間は、開始時刻と終了時刻を含むことができる。
ターゲット記録文に対するユーザの表示トリガー操作を受け付けた後、処理装置は、ターゲット記録文の関連期間における開始時刻に会議オーディオ・ビデオを再生し、終了時刻に会議オーディオ・ビデオの再生を停止し、会議テキストをターゲット記録文の関連字幕の位置までジャンプし、ターゲット記録文の関連字幕を所定の方法で強調表示することができる。オプションとして、所定の方法は、会議テキストの他の部分と区別できる任意の実行可能な表示方法であってもよく、例えば、ハイライト、太字及び下線のうちの少なくとも1つを含むことができるが、これらに限定されない。
上記の方案では、ユーザは議事録表示インターフェースにおいて記録文に対するインタラクティブトリガーによって、会議オーディオ・ビデオ及び会議テキストにおける関連コンテンツの関連付けインタラクションを実現することができ、ユーザのインタラクティブエクスペリエンスを向上させる。また、記録文、会議オーディオ・ビデオ及び会議テキストの三者間の関連付けインタラクションにより、ユーザは三者間の関係を直感的に理解できるようになり、ユーザが会議の内容を正確に理解するのにより一層役立つ。
なお、矛盾しない限り、本開示の実施形態における各ステップ及び特徴は、本開示の他の実施形態(図1に示される実施形態及び特定の実施形態の具体的な実現手法を含むがこれらに限定されない)と相互に重ね合わせ及び組み合わせられることができる。
本開示の実施形態に係る議事録の処理方案において、処理装置は、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付け、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する。上記の技術方案によれば、より正確な記録文を決定した後、処理装置は、その中の1つの記録文に対するユーザトリガーを受け付けた後、この記録文及びその前後にある複数の文を提示することができ、ターゲット記録文を単独で表示した場合にユーザが理解しにくくなることは避けられ、ユーザに内容を理解させやすく、記録文の表示効果をより良くすることができ、さらにユーザの体験効果を向上させる。
図4は、本開示の一実施形態に係る議事録の処理装置の構成概略図である。この装置はソフトウェア及び/またはハードウェアによって実現され、一般に電子機器に統合され得る。図4に示すように、この装置は、
会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュール401と、
前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するための初期ToDoモジュール402と、
前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するための時制判断モジュール403と、
前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するための会議ToDoモジュール404と、を含む。
オプションとして、前記初期ToDoモジュール402は、具体的に、
前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ToDo認識モデルに入力して、初期ToDo文を決定するために使用される。前記ToDo認識モデルは単一分類モデルである。
オプションとして、前記装置はモデルトレーニングモジュールをさらに含み、このモジュールは、具体的に、
ToDo文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ToDo認識モデルを得るために使用される。
オプションとして、前記会議ToDoモジュール404は、具体的に、
前記時制の結果が未来形である初期ToDo文を会議ToDo文として決定するために使用される。
オプションとして、前記装置は前処理モジュールをさらに含み、このモジュールは、会議オーディオ・ビデオの会議テキストを取得した後に、
前記会議テキストを文分割して、複数のテキスト文を取得し、
所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするために使用される。
オプションとして、前記前処理モジュールは、具体的に、
意図語が欠落しているテキスト文を削除する、及び/または、
文字列の長さが長さ閾値未満のテキスト文を削除する、及び/または、
名詞が欠落しているテキスト文を削除するために使用される。
オプションとして、前記前処理モジュールは、具体的に、
所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するために使用される。
本開示の実施形態に係る議事録の処理装置は、各モジュール間の協働作業によって、会議オーディオ・ビデオの会議テキストを取得し、会議テキストをToDo認識モデルに入力して初期ToDo文を決定し、初期ToDo文を時制判断モデルに入力して初期ToDo文の時制の結果を決定し、時制の結果に基づいて初期ToDo文における会議ToDo文を決定する。上記の技術方案によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、既に完成した文が会議ToDo文として認識されるのは避けられ、会議ToDo文を決定する正確性を大幅に高め、さらに、会議ToDo文によるユーザの作業効率を高め、ユーザの体験効果を向上させることができる。
図5は、本開示の一実施形態に係る議事録の処理装置の構成概略図である。この装置はソフトウェア及び/またはハードウェアによって実現され、一般に電子機器に統合され得る。図5に示すように、当該装置は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュール501であって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュール501と、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュール502と、を含む。
オプションとして、前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文はターゲット会議ToDo文を含む。
オプションとして、前記表示モジュール502は、具体的に、
前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するために使用される。
オプションとして、前記装置は、
前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するための関連付けインタラクションモジュールをさらに含む。
本開示の実施形態に係る議事録の処理装置は、各モジュール間の協働作業によって、議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付け、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示され、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する。上記の技術方案によれば、より正確な記録文を決定した後、ユーザによるその中の1つの記録文に対するトリガーを受け付けた後、この記録文及びその前後にある複数の文を提示することができ、ターゲット記録文を単独で提示した場合にユーザが理解しにくくなることは避けられ、ユーザに内容を理解させやすく、記録文の表示効果を高め、さらにユーザの体験効果を向上させる。
図6は、本開示の一実施形態に係る電子機器の構造概略図である。以下、図6を参照し、本開示の実施形態を実施するのに適している電子機器600の構造概略図が示されている。本開示の実施例における電子機器600は、携帯電話、ノートブックコンピュータ、デジタル放送受信機、PDA(携帯情報端末)、PAD(タブレット)、PMP(携帯型マルチメディアプレーヤー)、車載端末(例えば、車載ナビゲーション端末など)などの移動端末、及びデジタルテレビ、デスクトップコンピュータなどの固定端末を含み得るが、これらに限定されない。図6に示される電子機器は単なる一例に過ぎず、本開示の実施形態の機能及び使用範囲にいかなる制限もかけるべきではない。
図6に示すように、電子機器600は、読み取り専用メモリ(ROM)602に格納されたプログラムまたは記憶装置608からランダムアクセスメモリ(RAM)603内にロードされたプログラムに従い、様々な適切な動作と処理を実行することができる、処理装置(例えばCPU、グラフィックプロセッサなど)601を含むことができる。RAM603には、電子機器600を操作するのに必要な様々なプログラム及びデータも格納されている。処理装置601、ROM602及びRAM603は、バス604を介して互いに接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
典型的には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどを含む入力装置606、液晶ディスプレイ(LCD)、スピーカー、振動コンピュータなどを含む出力装置607、磁気テープ、ハードディスクなどを含む記憶装置608、及び通信装置609は、I/Oインターフェース605に接続され得る。通信装置609は、電子機器600が他の機器と無線または有線で通信してデータを交換することを可能にする。図6には各種の装置を有する電子機器600が示されているが、図示された装置のすべてを実施または具備することが要求されるわけではないことに理解されたい。代替的に、より多くのまたはより少ない装置を実施または具備することができる。
特に、本開示の実施形態によれば、フローチャートを参照して上記で説明された過程はコンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施形態は、非一時的なコンピュータ可読媒体に担持されるコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施形態では、コンピュータプログラムは、通信装置609を介してネットワークからダウンロード及びインストールされ得るか、または記憶装置608やROM602からインストールされ得る。コンピュータプログラムが処理装置710によって実行されるとき、本開示の実施形態に係る議事録の処理方法で限定された上記の機能が実行される。
なお、本開示で言及されるコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、あるいは上記2つの任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線または半導体システム、装置またはデバイス、あるいは上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例には、1つ以上のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラミング可能読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用することができるプログラムを含むか、または格納する任意の有形媒体であり得る。本開示では、コンピュータ可読信号媒体は、ベースバンドで、またはコンピュータ可読プログラムコードが格納された搬送波の一部として伝搬されるデータ信号を含み得る。そのように伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得、当該コンピュータ可読信号媒体は、指令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを送信、伝搬、または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバーケーブル、RF(無線周波数)、または上記の任意の適切な組み合わせなどを含むがこれらに限定されない任意の適切な媒体を使用して伝送され得る。
いくつかの実施形態では、クライアント端末、サーバーは、HTTP(HyperText Transfer Protocol,ハイパーテキスト転送プロトコル)などの現在既知のまたは将来開発される任意のネットワークプロトコルを利用して通信することができ、任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)と相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、インターネット(例えば、Internetなど)、及びピアツーピアネットワーク(例えば、ad hocピアツーピアネットワークなど)、ならびに現在既知のまたは将来開発されるネットワークが挙げられる。
上記のコンピュータ可読媒体は、上記の電子機器に含まれていてもよく、上記の電子装置に組み込まれずに単独で存在していてもよい。
上記のコンピュータ可読媒体には、1つ以上のプログラムが格納されている。該1つ以上のプログラムが上記電子機器によって実行されるとき、上記電子機器に、会議オーディオ・ビデオの会議テキストを取得するステップと、前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップと、前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するステップと、前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するステップを実行させる。
または、上記のコンピュータ可読媒体には、1つ以上のプログラムが格納されている。該1つ以上のプログラムが上記電子機器によって実行されるとき、上記電子機器に、議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップを実行させる。
また、本開示の操作を実行するためのコンピュータプログラムコードは、1つ以上のプログラミング言語またはそれらの組み合わせで書くことができる。上記のプログラミング言語には、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語が含まれるが、これらに限定されず、さらに「C」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語が含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータまたはサーバー上で実行され得る。リモートコンピュータが関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されるか、または、外部コンピュータに接続される(例えば、インターネットサービス事業者によってインターネット接続を介して接続する)ことができる。
図面におけるフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法、及びコンピュータプログラム製品による実現可能なシステムアーキテクチャ、機能及び操作を示している。この点に関して、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実現するための1つ以上の実行可能な指令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。なお、いくつかの代替的な実現では、ブロックに注記されている機能が、図示されている順序とは異なる順で発生する場合もあることに注意されたい。例えば、連続して表示される2つのブロックは、実際にほぼ並行して実行される場合もあれば、逆な順序に従って実行される場合もあるが、関連する機能に応じて決定される。なお、ブロック図及び/またはフローチャート図の各ブロック、ブロック図及び/またはフローチャート図のブロックの組み合わせは、所定の機能または操作を実行するための専用のハードウェアベースのシステムによって実現されるか、または専用のハードウェアとコンピュータ指令の組み合わせによって実現されることができる。
本開示の実施例に言及されたユニットは、ソフトウェアまたはハードウェアで実現され得る。ここで、ユニットの名称は、ある場合、当該ユニット自体への限定にならない。
本明細書で上述した機能は、少なくとも部分的に、1つ以上のハードウェアロジック部材によって実行され得る。例えば、これらに限定されないが、使用できるハードウェアロジック部材の例示的なタイプには、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブル論理デバイス(CPLD)などが含まれている。
本開示の文脈において、機械可読媒体は、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用されるためのプログラムを含むか、または格納することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体には、電子的、磁気的、光学的、電磁的、赤外線、または半導体システム、装置またはデバイス、あるいは上記の任意の適切な組み合わせが含まれてもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例には、1つまたは複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能なプログラムミング可能な読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、コンパクトディスク読み取り専用メモリ(CD-ROM)、光ストレージ、磁気ストレージ、または上記の任意の適切な組み合わせが含まれる。
本開示の1つ以上の実施形態によれば、本開示は、
会議オーディオ・ビデオの会議テキストを取得するステップと、
前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップと、
前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するステップと、
前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するステップと、を含む、議事録の処理方法を提供する。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップは、
前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ToDo認識モデルに入力して、初期ToDo文を決定するステップであって、前記ToDo認識モデルが、単一分類モデルであるステップを含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記ToDo認識モデルは以下の方法で生成される、即ち、
ToDo文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ToDo認識モデルを得る。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するステップは、
前記時制の結果が未来形である初期ToDo文を会議ToDo文として決定するステップを含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、会議オーディオ・ビデオの会議テキストを取得するステップの後に、
前記会議テキストを文分割して、複数のテキスト文を得るステップと、
所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするステップと、をさらに含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
意図語が欠落しているテキスト文を削除するステップ、及び/または、
文字列の長さが長さ閾値未満のテキスト文を削除するステップ、及び/または、
名詞が欠落しているテキスト文を削除するステップを含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するステップを含む。
本開示の1つ以上の実施形態によれば、本開示は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップと、を含む、議事録の処理方法を提供する。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文はターゲット会議ToDo文を含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する前記ステップは、
前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するステップを含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理方法において、
前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するステップをさらに含む。
本開示の1つ以上の実施形態によれば、本開示は、
会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュールと、
前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するための初期ToDoモジュールと、
前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するための時制判断モジュールと、
前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するための会議ToDoモジュールと、を含む、議事録の処理装置を提供する。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記初期ToDoモジュールは、具体的に、
前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ToDo認識モデルに入力して、初期ToDo文を決定するために使用され、前記ToDo認識モデルは単一分類モデルである。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記装置はさらに、
ToDo文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ToDo認識モデルを得るためのモデルトレーニングモジュールを含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記会議ToDoモジュールは、具体的に、
前記時制の結果が未来形である初期ToDo文を会議ToDo文として決定するために使用される。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記装置は、前処理モジュールをさらに含み、前処理モジュールは、
会議オーディオ・ビデオの会議テキストを取得した後に、
前記会議テキストを文分割して、複数のテキスト文を取得し、
所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするために使用される。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記前処理モジュールは、具体的に、
意図語が欠落しているテキスト文を削除する、及び/または、
文字列の長さが長さ閾値未満のテキスト文を削除する、及び/または、
名詞が欠落しているテキスト文を削除するために使用される。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記前処理モジュールは、具体的に、
所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するために使用される。
本開示の1つ以上の実施形態によれば、本開示は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュールであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュールと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュールとを含む、議事録の処理装置を提供する。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文はターゲット会議ToDo文を含む。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記表示モジュールは、具体的に、
前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するために使用される。
本開示の1つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記装置はさらに、
前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するための関連付けインタラクションモジュールを含む。
本開示の1つ以上の実施形態によれば、本開示は、
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み取って実行することで、本開示に係るいずれか1つの議事録の処理方法を実現するために使用される、電子機器を提供する。
本開示の1つ以上の実施形態によれば、本開示は、本開示に係るいずれか1つの議事録の処理方法を実行するためのコンピュータプログラムが記憶されたコンピュータ可読記憶媒体を提供する。
以上の記述は、本開示の好適な実施形態及び利用された技術原理を説明するものに過ぎない。本開示に係る開示の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術方案に限定されるものではなく、同時に、上記の開示の構想を逸脱することなく、上記の技術的特徴または均等的な特徴を任意に組み合わせることによって形成された他の技術方案、例えば上記の特徴を、本開示に開示された(ただしこれに限定されない)同様な機能を有する技術的特徴に置き換えることによって形成された技術方案も含まれるべきであることは、当業者に理解されるべきであろう。
また、各操作は特定の順序で説明されているが、これらの操作が示されている特定の順序または順番に従って実行されることを要求すると解釈されるべきではない。ある特定の環境下では、マルチタスクと並列処理が有利である場合がある。同様に、以上の記述には、いくつかの具体的な実現の詳細が含まれているが、本開示の範囲を限定するものと解釈されるべきではない。単独の実施形態の文脈において説明されるある特徴はまた、単一の実施形態において組み合わせて実施され得る。逆に、単一の実施形態の文脈において説明される様々な特徴はまた、単独で、または任意の適切なサブ組み合わせの形で複数の実施形態において実施され得る。
本主題は、構造的特徴及び/または方法の論理的動作に固有の言語で説明されているが、添付される特許請求の範囲で限定される主題は、必ずしも上述した特定の特徴や動作に限定されるものではなく、むしろ、上述した特定の特徴及び動作は、特許請求の範囲を実現するための単なる例示的な形態に過ぎないことは、理解されるべきであろう。

Claims (15)

  1. 電子機器が実行する議事録の処理方法であって、
    会議オーディオ・ビデオの会議テキストを取得するステップと、
    前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するステップと、
    前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するステップと、
    前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するステップと、
    を含むことを特徴とする方法。
  2. 前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定する前記ステップは、
    前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ToDo認識モデルに入力して、初期ToDo文を決定するステップであって、前記ToDo認識モデルが、単一分類モデルであるステップを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記ToDo認識モデルは、ToDo文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ToDo認識モデルを得る方法で生成される、
    ことを特徴とする請求項1に記載の方法。
  4. 前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定する前記ステップは、
    前記時制の結果が未来形である初期ToDo文を会議ToDo文として決定するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  5. 会議オーディオ・ビデオの会議テキストを取得する前記ステップの後に、
    前記会議テキストを文分割して、複数のテキスト文を得るステップと、
    所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするステップと、
    をさらに含む、ことを特徴とする請求項1に記載の方法。
  6. 所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
    意図語が欠落しているテキスト文を削除するステップ、及び/または、
    文字列の長さが長さ閾値未満のテキスト文を削除するステップ、及び/または、
    名詞が欠落しているテキスト文を削除するステップを含む、
    ことを特徴とする請求項5に記載の方法。
  7. 所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
    所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するステップを含む、
    ことを特徴とする請求項5に記載の方法。
  8. 電子機器が実行する議事録の処理方法であって、
    議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、
    前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップと、
    を含む、ことを特徴とする方法。
  9. 前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文は、ターゲット会議ToDo文を含む、
    ことを特徴とする請求項8に記載の方法。
  10. 前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する前記ステップは、
    前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するステップを含む、
    ことを特徴とする請求項8に記載の方法。
  11. 前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するステップをさらに含む、
    ことを特徴とする請求項8に記載の方法。
  12. 議事録の処理装置であって、
    会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュールと、
    前記会議テキストをToDo認識モデルに入力して、初期ToDo文を決定するための初期ToDoモジュールと、
    前記初期ToDo文を時制判断モデルに入力して、前記初期ToDo文の時制の結果を決定するための時制判断モジュールと、
    前記時制の結果に基づいて、前記初期ToDo文における会議ToDo文を決定するための会議ToDoモジュールと、
    を含むことを特徴とする装置。
  13. 議事録の処理装置であって、
    議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュールであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュールと、
    前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュールと、
    を含むことを特徴とする装置。
  14. プロセッサと、
    前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、
    前記プロセッサは、前記メモリから前記実行可能な命令を読み取って実行することで、請求項1から11のいずれか1項に記載の議事録の処理方法を実現する、
    ことを特徴とする、電子機器。
  15. コンピュータ可読記憶媒体であって、
    コンピュータプログラムが記憶されており、前記コンピュータプログラムは、請求項1から11のいずれか1項に記載の議事録の処理方法を実行するために使用される、
    ことを特徴とする、コンピュータ可読記憶媒体。
JP2023544227A 2021-01-27 2022-01-05 議事録の処理方法、装置、機器及び媒体 Pending JP2024506495A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110113700.1A CN113011169B (zh) 2021-01-27 2021-01-27 一种会议纪要的处理方法、装置、设备及介质
CN202110113700.1 2021-01-27
PCT/CN2022/070282 WO2022161122A1 (zh) 2021-01-27 2022-01-05 一种会议纪要的处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
JP2024506495A true JP2024506495A (ja) 2024-02-14

Family

ID=76384614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023544227A Pending JP2024506495A (ja) 2021-01-27 2022-01-05 議事録の処理方法、装置、機器及び媒体

Country Status (4)

Country Link
US (1) US20240079002A1 (ja)
JP (1) JP2024506495A (ja)
CN (1) CN113011169B (ja)
WO (1) WO2022161122A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011169B (zh) * 2021-01-27 2022-11-11 北京字跳网络技术有限公司 一种会议纪要的处理方法、装置、设备及介质
CN114936001A (zh) * 2022-04-14 2022-08-23 阿里巴巴(中国)有限公司 交互方法、装置及电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040064322A1 (en) * 2002-09-30 2004-04-01 Intel Corporation Automatic consolidation of voice enabled multi-user meeting minutes
US7298930B1 (en) * 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
JP2006091938A (ja) * 2004-09-16 2006-04-06 Ricoh Co Ltd 電子会議システム
US20080022209A1 (en) * 2006-07-19 2008-01-24 Lyle Ruthie D Dynamically controlling content and flow of an electronic meeting
EP2566144B1 (en) * 2011-09-01 2017-05-03 BlackBerry Limited Conferenced voice to text transcription
CN102572372B (zh) * 2011-12-28 2018-10-16 中兴通讯股份有限公司 会议纪要的提取方法和装置
TWI619115B (zh) * 2014-12-30 2018-03-21 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
TWI590240B (zh) * 2014-12-30 2017-07-01 鴻海精密工業股份有限公司 會議記錄裝置及其自動生成會議記錄的方法
CN104954151A (zh) * 2015-04-24 2015-09-30 成都腾悦科技有限公司 一种基于网络会议的会议纪要提取与推送方法
CN107562723A (zh) * 2017-08-24 2018-01-09 网易乐得科技有限公司 会议处理方法、介质、装置和计算设备
CN107733666A (zh) * 2017-10-31 2018-02-23 珠海格力电器股份有限公司 一种会议实现方法、装置及电子设备
CN108366216A (zh) * 2018-02-28 2018-08-03 深圳市爱影互联文化传播有限公司 会议视频录制、记录及传播方法、装置及服务器
JP6601545B2 (ja) * 2018-09-13 2019-11-06 株式会社リコー 支援装置、支援方法およびプログラム
CN111739541B (zh) * 2019-03-19 2021-11-05 上海云思智慧信息技术有限公司 一种基于语音的会议协助方法及系统、存储介质及终端
CN110533382A (zh) * 2019-07-24 2019-12-03 阿里巴巴集团控股有限公司 会议纪要的处理方法、装置、服务器及可读存储介质
CN110717031B (zh) * 2019-10-15 2021-05-18 南京摄星智能科技有限公司 一种智能会议纪要生成方法和系统
CN111832308B (zh) * 2020-07-17 2023-09-08 思必驰科技股份有限公司 语音识别文本连贯性处理方法和装置
CN112069800A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子时态识别方法、设备和可读存储介质
CN113011169B (zh) * 2021-01-27 2022-11-11 北京字跳网络技术有限公司 一种会议纪要的处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113011169A (zh) 2021-06-22
WO2022161122A1 (zh) 2022-08-04
CN113011169B (zh) 2022-11-11
US20240079002A1 (en) 2024-03-07

Similar Documents

Publication Publication Date Title
CN108985358B (zh) 情绪识别方法、装置、设备及存储介质
US11158206B2 (en) Assisting learners based on analytics of in-session cognition
JP2024506495A (ja) 議事録の処理方法、装置、機器及び媒体
WO2022037419A1 (zh) 音频内容识别方法、装置、设备和计算机可读介质
CN113010704B (zh) 一种会议纪要的交互方法、装置、设备及介质
WO2022247562A1 (zh) 多模态数据检索方法、装置、介质及电子设备
CN113010698B (zh) 多媒体的交互方法、信息交互方法、装置、设备及介质
CN113723087B (zh) 信息处理方法、装置、设备、可读存储介质及产品
WO2023279843A1 (zh) 内容搜索方法、装置、设备和存储介质
WO2023142913A1 (zh) 视频处理方法、装置、可读介质及电子设备
CN109889921B (zh) 一种具备交互功能的音视频创建、播放方法及装置
CN110827085A (zh) 文本处理方法、装置及设备
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN112954453B (zh) 视频配音方法和装置、存储介质和电子设备
CN114995691B (zh) 一种文档处理方法、装置、设备和介质
CN114298007A (zh) 一种文本相似度确定方法、装置、设备及介质
CN113014853B (zh) 互动信息处理方法、装置、电子设备及存储介质
CN117171328A (zh) 文本问答处理方法、装置、电子设备及存储介质
WO2023207690A1 (zh) 一种文本生成方法、装置、电子设备及介质
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN106959945B (zh) 基于人工智能的为新闻生成短标题的方法和装置
CN110502630B (zh) 信息处理方法及设备
CN112905838A (zh) 信息检索方法和装置、存储介质和电子设备
CN113132789B (zh) 一种多媒体的交互方法、装置、设备及介质
US11520839B2 (en) User based network document modification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230721