JP2024506495A

JP2024506495A - 議事録の処理方法、装置、機器及び媒体

Info

Publication number: JP2024506495A
Application number: JP2023544227A
Authority: JP
Inventors: ドゥ，チュンサイ; ヤン，ジンシォン; チェン，クゥーロン; ヂォン，シャン; シュ，ウェンミン
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2021-01-27
Filing date: 2022-01-05
Publication date: 2024-02-14
Also published as: CN113011169A; WO2022161122A1; CN113011169B; US20240079002A1

Abstract

議事録の処理方法、装置、機器及び媒体である。本方法は、会議オーディオ・ビデオの会議テキストを取得するステップ（１０１）と、会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップ（１０２）と、初期ＴｏＤｏ文を時制判断モデルに入力して、初期ＴｏＤｏ文の時制の結果を決定するステップ（１０３）と、時制の結果に基づいて、初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップ（１０４）とを含む。上記の方法によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、会議ＴｏＤｏ文を決定する正確性を高めることができ、さらに会議ＴｏＤｏ文によるユーザの作業効率を高め、ユーザの体験効果を向上させることができる。

Description

本出願は、２０２１年０１月２７日に中国国家知識産権局へ提出された、出願番号が２０２１１０１１３７００．１であって、出願の名称が「議事録の処理方法、装置、機器及び媒体」である中国特許出願に対する優先権の利益を主張し、その内容全体が援用により本明細書に組み込まれる。

本開示は、会議認識の技術分野に関し、特に議事録の処理方法、装置、機器及び媒体に関する。

インテリジェントデバイスやマルチメディア技術の継続的な発展に伴い、インテリジェントデバイスを介したオンライン会議は、コミュニケーション効率や情報保存などの面での顕著な表現により、日常生活やオフィス生活でますます利用されるようになってきた。

会議終了後のオーディオ・ビデオは、認識処理によってテキストに変換され、当該テキストからタスク意図を含むＴｏＤｏ文を決定することができる。しかし、ＴｏＤｏ文の決定には、効率が低く、正確性が高くないという問題がある。

上記の技術的課題を解決するか、または少なくとも部分的に上記の技術的課題を解決するために、本開示は、議事録の処理方法、装置、機器及び媒体を提供する。

本開示の実施形態は、
会議オーディオ・ビデオの会議テキストを取得するステップと、
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップと、
前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するステップと、
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップと、
を含む、議事録の処理方法を提供する。

本開示の実施形態は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップと、
を含む、議事録の処理方法をさらに提供する。

本開示の実施形態は、
会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュールと、
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するための初期ＴｏＤｏモジュールと、
前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するための時制判断モジュールと、
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するための会議ＴｏＤｏモジュールと、
を含む、議事録の処理装置をさらに提供する。

本開示の実施形態は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュールであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュールと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュールと、
を含む、議事録の処理装置をさらに提供する。

本開示の実施形態は、プロセッサと、前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、前記プロセッサは、前記メモリから前記実行可能な命令を読み取って実行することで、本開示の実施形態に係る議事録の処理方法を実現するために使用される、電子機器をさらに提供する。

本開示の実施形態は、本開示の実施形態に係る議事録の処理方法を実行するためのコンピュータプログラムが記憶されたコンピュータ可読記憶媒体をさらに提供する。

本開示の実施形態に係る技術方案は従来の技術と比べて、以下の利点がある。本開示の実施形態に係る議事録の処理方法において、会議オーディオ・ビデオの会議テキストを取得するステップと、会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップと、初期ＴｏＤｏ文を時制判断モデルに入力して、初期ＴｏＤｏ文の時制の結果を決定するステップと、時制の結果に基づいて、初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップとを含む。上記の技術方案によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、既に完成した文が会議ＴｏＤｏ文として認識されることは避けられ、会議ＴｏＤｏ文を決定する正確性を大幅に高め、さらに、会議ＴｏＤｏ文によるユーザの作業効率を高めることができ、ユーザの体験効果を向上させる。

本開示の各実施例の前述及び他の特徴、利点及び態様は、添付の図面と併せて、以下の具体的な実施形態を参照すると、より明らかになるであろう。図面全体において、同じまたは類似の図面符号は同じまたは類似の要素を示す。図面は概略図であって、部品及び要素は必ずしも一定の縮尺で描かれるわけではないことは、理解されるべきであろう。

本開示の一実施形態に係る議事録の処理方法のフローチャートである；本開示の別の実施形態に係る議事録の処理方法のフローチャートである；本開示の一実施形態に係る議事録表示インターフェースの概略図である；本開示の一実施形態に係る議事録の処理装置の構成概略図である；本開示の一実施形態に係る議事録の処理装置の構成概略図である；本開示の一実施形態に係る電子機器の構造概略図である。

以下で、図面を参照しながら本開示の実施例をより詳しく説明する。本開示のいくつかの実施例は図面に示されているが、本開示は様々な形態で実現されることができ、本明細書に記載の実施例に限定されるものと解釈されるべきではなく、むしろこれらの実施例は本開示をより深くかつ完全に理解するために提供されることは理解されるべきであろう。また本開示の図面及び実施例は、例示的な目的のために挙げられるだけであって、本開示の保護範囲を限定するものではないことは理解されるべきであろう。

本開示の方法実施形態に記載される各ステップは、異なる順序に従って実行され、及び／または並行して実行され得ることは理解されるべきであろう。さらに、方法実施形態は、追加のステップを含み、及び／または図示されるステップの実行を省略し得る。本開示の範囲はこの点において限定されない。

本明細書に使用される「含む」という用語及びその変形は、自由形式の包含、即ち「含むがこれらに限定されない」という意味である。「に基づく」という用語は、「少なくとも部分的に基づく」という意味である。「一実施形態」という用語は、「少なくとも１つの実施形態」を意味し、「別の実施形態」という用語は、「少なくとも１つの別の実施形態」を意味し、「いくつかの実施形態」という用語は、「少なくともいくつかの実施形態」を意味する。また他の用語に関連する定義は、以下で説明される。

なお、本開示に言及される「第１」、「第２」などの概念は、異なる装置、モジュールまたはユニットを区別するためにのみ使用されるが、これらの装置、モジュールまたはユニットによって実行される機能の順序または相互依存関係を限定するものではないことに注意されたい。

なお、本開示に言及される「１つ」及び「複数」などの修飾は、限定的ではなく例示的であり、文脈において明示的に特段の指示がない限り、「１つ以上」として解釈されるべきであるは、当業者に理解されるべきであろう。

本開示の実施形態において複数の装置間でやり取りされるメッセージまたは情報の名称は例示のみを目的として使用され、これらのメッセージまたは情報の範囲を制限するために使用されるものではない。

会議終了後、会議オーディオ・ビデオを、認識処理によってテキストに変換することができる。ところが、通常、会議テキストの内容が多いため、タスク意図を含む文を如何に迅速かつ正確に抽出するかが特に重要となる。会議の内容はある１つまたは複数の話題について議論する記録であり、最終的にある程度の結論を導き出したり、他の多くの議題を連想したりする場合が多い。また、会議中に完了する必要があるタスクを多く配分することが多いが、会議の会議テキストは文字数が多く含まれているため、完了する必要がある意図（ｔｏｄｏ）を含むタスクを選び出すことができれば、議事録の整理にかかる手間が大きく削減できるであろう。その中で、ＴｏＤｏ文は意図の１つのタイプであり得る。しかし、現在、ＴｏＤｏ文の決定には、効率が低く、正確性が高くないという問題があった。上記の問題を解決すべく、本開示の実施形態は議事録の処理方法を提供する。以下、具体的な実施形態を参照しながら、この方法を説明する。

図１は、本開示の一実施形態に係る議事録の処理方法のフローチャートである。この方法は議事録の処理装置によって実行され得る。ここで、この装置はソフトウェア及び／またはハードウェアによって実現され、一般に電子機器に統合され得る。図１に示すように、この方法は、以下のステップを含むことができる。

ステップＳ１０１：処理装置によって、会議オーディオ・ビデオの会議テキストを取得する。

会議オーディオ・ビデオとは、会議プロセスを記録するためのオーディオ及び／またはビデオを意味する。また、会議テキストとは、会議オーディオ・ビデオを音声認識処理することで得られたテキスト内容である。

本開示の実施形態では、処理装置は、オーディオ・ビデオ処理によって得られた会議テキストを取得することができ、処理装置は、会議オーディオ・ビデオを取得し、会議オーディオ・ビデオを処理することによって会議テキストを取得することもできる。

ステップＳ１０２：処理装置は、会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定する。

ＴｏＤｏ認識モデルは、会議テキストからＴｏＤｏ意図文を認識するための事前トレーニング済みの深層学習モデルであり、具体的に使用される深層学習モデルは限定されない。

本開示の実施形態では、ステップＳ１０２が実行される前に、処理装置はまた、ＴｏＤｏ認識モデルを生成することができる。ＴｏＤｏ認識モデルは、次の方法によって生成される。即ち、ＴｏＤｏ文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、ＴｏＤｏ認識モデルを得る。ネガティブサンプルの境界なし性を考慮して、本開示の実施形態では、ＴｏＤｏ認識モデルを単一分類モデルとすることを例に取り上げて説明する。単一分類モデルは、特別な分類タスクモデルであり、このモデルに使用されるトレーニングサンプルには、ポジティブのクラスのタグしかなく、他のサンプルは別のクラスに分類される。ポジティブサンプルの境界を決定し、境界の外側にあるデータは別のクラスに分類されると理解されてもよい。

ＴｏＤｏ文のポジティブサンプルは、ポジティブタグが付けられたサンプルである、即ち会議ＴｏＤｏ文として決定されたサンプルであり得る。ＴｏＤｏ文のポジティブサンプル数は制限されず、実際の状況に応じて設定可能である。具体的に、処理装置は、ＴｏＤｏ文のポジティブサンプルを初期単一分類モデルに入力してモデルトレーニングを行い、トレーニング済みの単一分類モデル、即ちＴｏＤｏ認識モデルを得ることができる。

本開示の実施形態では、処理装置が、会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップは、処理装置が、会議テキストにおけるテキスト文を文ベクトルに変換し、文ベクトルをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップを含むことができる。テキスト文は、会議テキストを文セグメント化または分割することによって得られ、テキスト文の数は複数であってもよい。

処理装置は、会議テキストに含まれる各テキスト文を埋め込み（Ｅｍｂｅｄｄｉｎｇ）レイヤーによって文ベクトルに変換し、各文ベクトルを事前トレーニング済みのＴｏＤｏ認識モデルに入力して、ＴｏＤｏ文の分類結果の予測を行い、戻り値を有する文を、初期ＴｏＤｏ文として決定することができる。ＴｏＤｏ認識モデルは単一分類モデルであるため、球の半径と球心を算出することで分類するものと理解されてもよく、この球はポジティブサンプルの境界であり、球内の空間はＴｏＤｏ文のポジティブサンプルの分布空間を表すものである。

上記の方案では、処理装置は単一分類モデルを利用して会議テキストからＴｏＤｏ文の認識を行うことによって、深層学習モデルをトレーニングするのに必要なデータ量が削減され、モデルトレーニング効率を向上させ、認識精度を向上させる。

ステップＳ１０３：処理装置は、初期ＴｏＤｏ文を時制判断モデルに入力して、時制の結果を決定する。

時制判断モデルは、上記のＴｏＤｏ認識モデルと同様に、事前にトレーニング済みのモデルであり、前のステップで認識された初期ＴｏＤｏ文に対して時制判断をさらに行うために使用され、具体的に使用される深層学習モデルは限定されない。時制は、行動、動作及び状態が様々な時間条件下にあることを特徴付ける形式である。時制の結果は、過去形、現在形及び未来形などを含み得る。過去形は過去の時間を表し、現在形は現在の時間を表し、未来形は未来の時間を表すために使用される。

具体的に、処理装置は、ＴｏＤｏ認識モデルを介して会議テキストを認識して初期ＴｏＤｏ文を決定した後、初期ＴｏＤｏ文を事前トレーニング済みの時制判断モデルに入力して、さらに時制判断を行い、時制の結果を決定することができる。時制判断モデルは、３分類モデルであってもよい。

ステップＳ１０４：処理装置は、時制の結果に基づいて、初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定する。

会議ＴｏＤｏ文は初期ＴｏＤｏ文とは異なり、最終的に決定されたＴｏＤｏ意図を含む文を指す。

具体的には、時制の結果に基づいて、初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップは、時制の結果が未来形である初期ＴｏＤｏ文を会議ＴｏＤｏ文として決定するステップを含むことができる。上記の各初期ＴｏＤｏ文の時制の結果を決定した後、処理装置は、時制の結果が未来形である初期ＴｏＤｏ文を会議ＴｏＤｏ文とし、時制の結果が過去形と現在形である初期ＴｏＤｏ文を削除して、最終的に会議ＴｏＤｏ文を得ることができる。

本開示の実施形態では、処理装置は深層学習モデルを介して会議テキストに対してＴｏＤｏ意図の認識を行うことによって、議事録における会議ＴｏＤｏ文を整理するのを支援し、ユーザの作業効率を高めることができる。従来の機械学習方法と比較して、ＴｏＤｏ認識モデルは単一分類モデルを用いるため、ネガティブサンプルの判断精度を大幅に向上させることができ、ＴｏＤｏ意図文のネガティブサンプルには境界性がなく、モデルの判断精度が高く、ユーザエクスペリエンスを大幅に向上させることができる。

本開示の実施形態に係る議事録の処理方法では、処理装置は、会議オーディオ・ビデオの会議テキストを取得し；会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定し；初期ＴｏＤｏ文を時制判断モデルに入力して、初期ＴｏＤｏ文の時制の結果を決定し；時制の結果に基づいて、初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定する。上記の技術方案によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、既に完成した文が会議ＴｏＤｏ文として認識されるのは避けられ、会議ＴｏＤｏ文を決定する正確性を大幅に高め、さらに、会議ＴｏＤｏ文によるユーザの作業効率を高め、ユーザの体験効果を向上させることができる。

いくつかの実施形態では、会議オーディオ・ビデオの会議テキストを取得した後に、会議テキストを文分割して、複数のテキスト文を得るステップと、所定のルールに基づいてテキスト文を前処理することによって、テキスト文をフィルタリングするステップとをさらに含むことができる。オプションとして、所定のルールに基づいてテキスト文を前処理するステップは、意図語が欠落しているテキスト文を削除する、及び／または、文字列の長さが長さ閾値未満のテキスト文を削除する、及び／または、名詞が欠落しているテキスト文を削除するステップを含む。

テキスト文は、会議テキストを文セグメント化または分割することによって得られ、具体的には、会議テキストを句読点に従って分割して、会議テキストを複数のテキスト文に変換することができる。所定の規則は、複数のテキスト文を処理するための規則であってもよいが、具体的に限定されず、例えば、所定の規則は、死語を削除すること及び／または重複語を削除することであってもよい。

本開示の実施形態では、会議テキストを文分割して複数のテキスト文を得ることができ、次に、各テキスト文に対して単語分割処理を行い、単語分割処理の結果を得るとともに、所定の規則及び単語分割処理の結果に基づいて、テキスト文を前処理することによって、テキスト文をフィルタリングすることができ、前処理されたテキスト文はＴｏＤｏ文になる可能性がより高い。テキスト文を前処理するステップは、各テキスト文の単語分割処理の結果を検索し、意図語及び／または名詞が含まれているかどうかを判断し、意図語及び／または名詞が欠落しているテキスト文を削除するステップを含むことができる。意図語とは、事前に整理された、ＴｏＤｏ意図を含む可能性がある文言を指す。例えば、テキスト文に「完了する必要がある」という文言が含まれている場合、ＴｏＤｏ意図を持っている可能性があり、「完了する必要がある」は意図語である。本開示の実施形態では、前処理のために複数の意図語及び／または名詞を格納するためのシソーラスが設定され得る。

及び／または、テキスト文を前処理するステップは、各テキスト文の文字列の長さを決定して、それぞれ長さ閾値と比較し、文字列の長さが長さ閾値未満のテキスト文を削除するステップを含むことができる。長さ閾値とは、予め設定された文の長さの数値を指し、テキスト文が短すぎる場合、文にならない可能性があるため、長さ閾値を設定することによって短すぎるテキスト文を削除することができる。

オプションとして、所定の規則に基づいてテキスト文を前処理するステップは、所定の文型に基づいてテキスト文に対して文型マッチングを行い、所定の文型を満たさないテキスト文を削除するステップを含むことができる。所定の文型は、ＴｏＤｏ意図を含む可能性が高い文型と理解され得る。所定の文型には様々な文型を含むことができ、例えば、所定の文型は、主語＋前置詞＋時間語＋動詞＋目的語とすることができ、対応する文について、「王さん、明日に宿題を終わらせてください」を例に挙げ、この文はＴｏＤｏ文である。各テキスト文を所定の文型と文型マッチングして、所定の文型を満たさないテキスト文を削除する。

本開示の実施形態では、会議テキストを取得した後、複数の所定の規則に基づいて、会議テキストに含まれるテキスト文を前処理することができる。所定の規則はＴｏＤｏ意図に関連しているため、前処理されたテキスト文はＴｏＤｏ文になる可能性が高く、さらに、後続のＴｏＤｏ文の決定の効率及び正確性を向上させる。

図２は、本開示の別の実施形態に係る議事録の処理方法のフローチャートである。この方法は、議事録の処理装置によって実行され得る。ここで、この装置はソフトウェア及び／またはハードウェアによって実現され、一般に電子機器に統合され得る。図２に示すように、この方法は、以下のステップを含むことができる。

ステップＳ２０１：処理装置は、議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付け、議事録表示インターフェースには、会議オーディオ・ビデオ、会議オーディオ・ビデオの会議テキスト及びターゲット記録文が表示される。

議事録表示インターフェースとは、予め生成された議事録を表示するためのインターフェースを指す。会議オーディオ・ビデオと会議テキストは、議事録表示インターフェースの異なる領域に別々に表示されている。議事録表示インターフェースには、会議オーディオ・ビデオ、会議オーディオ・ビデオの会議テキスト及び議事録などの会議に関連するコンテンツをそれぞれ表示するためのオーディオ・ビデオ領域、字幕領域及び議事録表示領域などの領域が設置されてもよい。表示トリガー操作とは、議事録における会議ＴｏＤｏ文の表示をトリガーする操作を指し、具体的な方法は限定されず、例えば、表示トリガー操作は、会議ＴｏＤｏ文に対するクリック操作及び／またはホバリング操作であってもよい。

記録文とは、議事録における文を指し、上記の議事録表示領域に表示される。記録文には会議ＴｏＤｏ文が含まれており、会議ＴｏＤｏ文は、記録タイプに対応する記録文であり、上記の実施形態で決定されたＴｏＤｏ文である。議事録とは、会議オーディオ・ビデオを処理することによって生成された会議の主な内容を指す。議事録は様々な種類のものであってもよく、本開示の実施形態では、議事録は議題、議事日程、議論、結論及びＴｏＤｏなどの少なくとも１種を含むことができ、会議ＴｏＤｏ文は、ＴｏＤｏの種類に属する文である。

本開示の実施形態では、ユーザが議事録表示インターフェースにおけるコンテンツを閲覧するとき、クライアント端末は、議事録における１つのターゲット記録文に対するユーザの表示トリガー操作を受け付けることができる。

例示的に、図３は、本開示の一実施形態に係る議事録表示インターフェースの概略図である。図３に示すように、議事録表示インターフェース１０における第１の領域１１には議事録が表示され、第１の領域１１の最上部には会議ビデオが表示され、第２の領域１２には会議テキストが表示され、議事録表示インターフェース１０の最下部には、会議音声が表示され、具体的に会議音声の時間軸を含めることができる。図３には、議題、議事日程、議論、結論、ＴｏＤｏの５種類の議事録が示されており、そのうちのＴｏＤｏ一覧に３つの会議ＴｏＤｏ文が含まれている。図３における矢印は、第１の会議ＴｏＤｏ文に対する表示トリガー操作を示してもよい。

図３における会議テキストは、会議に参加している様々なユーザに基づいて字幕セグメントを分割することができ、それぞれユーザ１、ユーザ２、及びユーザ３である３人のユーザの字幕セグメントが図示されている。図３において、議事録表示インターフェース１０の最上部に、会議のテーマとなる「チームレビュー会議」や会議の関連内容がさらに表示されており、図中の「２０１９．１２．２０午前１０：００」は、会議の開始時刻を示し、「１ｈ３０ｍ３０ｓ」は会議の持続時間が１時間３０分２０秒であることを示し、「１６」は参加者人数を示している。なお、図３における議事録表示インターフェース１０は一例に過ぎず、その中に含まれるコンテンツの位置も一例であり、具体的な位置及び表示方法は実際の状況に応じて設定可能であることに理解されたい。

ステップＳ２０２：処理装置は、ターゲット記録文及びターゲット記録文の関連文を表示する。

関連文は会議テキストに含まれており、ターゲット記録文と位置的に関連付けられた字幕文である。関連文の数は、実際の状況に応じて設定可能であり、例えば、関連文は、会議テキストにおけるターゲット記録文の前後に位置する２つの字幕文であり得る。その数は２であり得る。字幕文は、会議テキストの１構成単位であってもよく、会議テキストを分割することで得られたものである。会議テキストには複数の字幕文が含まれるが、具体的な数は限定されない。

本開示の実施形態では、ターゲット記録文及びターゲット記録文の関連文を表示するステップは、ターゲット記録文及びターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するステップを含むことができる。フローティングウィンドウは、議事録表示インターフェースにおける領域内に表示され、フローティングウィンドウの具体的な位置は、実際の状況に応じて設定可能であり、例えば、フローティングウィンドウの位置は、現在のターゲット記録文を遮らない任意の位置であり得る。

ターゲット記録文に対する表示トリガー操作を受け付けた後、処理装置は１つのフローティングウィンドウをユーザに表示し、ターゲット記録文及びターゲット記録文の関連文をフローティングウィンドウ内に表示することができる。本開示の実施形態では、ターゲット記録文とその前後にある複数の文を表示することによって、ターゲット記録文を単独で表示した場合にユーザが理解しにくくなることは避けられ、ユーザに内容を理解させやすく、記録文の表示効果を向上させることができる。

例示的に、図３を参照すると、第１の領域１１に表示された議事録のＴｏＤｏ一覧の最初の下線付きの会議ＴｏＤｏ文は、ターゲット会議ＴｏＤｏ文である。ターゲットＴｏＤｏ文に対して表示トリガーを行うと、フローティングウィンドウ１３には、このターゲット会議ＴｏＤｏ文及びターゲットＴｏＤｏ文の関連文が表示される。図中のフローティングウィンドウ１３に表示されている関連文は、ターゲット会議ＴｏＤｏ文の前の１文及び後の１文である。

いくつかの実施形態では、議事録の処理方法は、会議オーディオ・ビデオをターゲット記録文の関連期間に基づいて再生するとともに、会議テキストにおけるターゲット記録文の関連字幕を強調表示するステップをさらに含むことができる。ターゲット記録文の関連字幕とは、字幕テキストでのターゲット記録文に対応する字幕を指し、ターゲット記録文の関連期間とは、会議オーディオ・ビデオでの関連字幕に対応する元の会議音声の持続時間を指す。この関連期間は、開始時刻と終了時刻を含むことができる。

ターゲット記録文に対するユーザの表示トリガー操作を受け付けた後、処理装置は、ターゲット記録文の関連期間における開始時刻に会議オーディオ・ビデオを再生し、終了時刻に会議オーディオ・ビデオの再生を停止し、会議テキストをターゲット記録文の関連字幕の位置までジャンプし、ターゲット記録文の関連字幕を所定の方法で強調表示することができる。オプションとして、所定の方法は、会議テキストの他の部分と区別できる任意の実行可能な表示方法であってもよく、例えば、ハイライト、太字及び下線のうちの少なくとも１つを含むことができるが、これらに限定されない。

上記の方案では、ユーザは議事録表示インターフェースにおいて記録文に対するインタラクティブトリガーによって、会議オーディオ・ビデオ及び会議テキストにおける関連コンテンツの関連付けインタラクションを実現することができ、ユーザのインタラクティブエクスペリエンスを向上させる。また、記録文、会議オーディオ・ビデオ及び会議テキストの三者間の関連付けインタラクションにより、ユーザは三者間の関係を直感的に理解できるようになり、ユーザが会議の内容を正確に理解するのにより一層役立つ。

なお、矛盾しない限り、本開示の実施形態における各ステップ及び特徴は、本開示の他の実施形態（図１に示される実施形態及び特定の実施形態の具体的な実現手法を含むがこれらに限定されない）と相互に重ね合わせ及び組み合わせられることができる。

本開示の実施形態に係る議事録の処理方案において、処理装置は、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付け、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する。上記の技術方案によれば、より正確な記録文を決定した後、処理装置は、その中の１つの記録文に対するユーザトリガーを受け付けた後、この記録文及びその前後にある複数の文を提示することができ、ターゲット記録文を単独で表示した場合にユーザが理解しにくくなることは避けられ、ユーザに内容を理解させやすく、記録文の表示効果をより良くすることができ、さらにユーザの体験効果を向上させる。

図４は、本開示の一実施形態に係る議事録の処理装置の構成概略図である。この装置はソフトウェア及び／またはハードウェアによって実現され、一般に電子機器に統合され得る。図４に示すように、この装置は、
会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュール４０１と、
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するための初期ＴｏＤｏモジュール４０２と、
前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するための時制判断モジュール４０３と、
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するための会議ＴｏＤｏモジュール４０４と、を含む。

オプションとして、前記初期ＴｏＤｏモジュール４０２は、具体的に、
前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するために使用される。前記ＴｏＤｏ認識モデルは単一分類モデルである。

オプションとして、前記装置はモデルトレーニングモジュールをさらに含み、このモジュールは、具体的に、
ＴｏＤｏ文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ＴｏＤｏ認識モデルを得るために使用される。

オプションとして、前記会議ＴｏＤｏモジュール４０４は、具体的に、
前記時制の結果が未来形である初期ＴｏＤｏ文を会議ＴｏＤｏ文として決定するために使用される。

オプションとして、前記装置は前処理モジュールをさらに含み、このモジュールは、会議オーディオ・ビデオの会議テキストを取得した後に、
前記会議テキストを文分割して、複数のテキスト文を取得し、
所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするために使用される。

オプションとして、前記前処理モジュールは、具体的に、
意図語が欠落しているテキスト文を削除する、及び／または、
文字列の長さが長さ閾値未満のテキスト文を削除する、及び／または、
名詞が欠落しているテキスト文を削除するために使用される。

オプションとして、前記前処理モジュールは、具体的に、
所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するために使用される。

本開示の実施形態に係る議事録の処理装置は、各モジュール間の協働作業によって、会議オーディオ・ビデオの会議テキストを取得し、会議テキストをＴｏＤｏ認識モデルに入力して初期ＴｏＤｏ文を決定し、初期ＴｏＤｏ文を時制判断モデルに入力して初期ＴｏＤｏ文の時制の結果を決定し、時制の結果に基づいて初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定する。上記の技術方案によれば、会議オーディオ・ビデオの会議テキストを認識したうえで時制の判断を加えることによって、既に完成した文が会議ＴｏＤｏ文として認識されるのは避けられ、会議ＴｏＤｏ文を決定する正確性を大幅に高め、さらに、会議ＴｏＤｏ文によるユーザの作業効率を高め、ユーザの体験効果を向上させることができる。

図５は、本開示の一実施形態に係る議事録の処理装置の構成概略図である。この装置はソフトウェア及び／またはハードウェアによって実現され、一般に電子機器に統合され得る。図５に示すように、当該装置は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュール５０１であって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュール５０１と、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュール５０２と、を含む。

オプションとして、前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文はターゲット会議ＴｏＤｏ文を含む。

オプションとして、前記表示モジュール５０２は、具体的に、
前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するために使用される。

オプションとして、前記装置は、
前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するための関連付けインタラクションモジュールをさらに含む。

本開示の実施形態に係る議事録の処理装置は、各モジュール間の協働作業によって、議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付け、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示され、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する。上記の技術方案によれば、より正確な記録文を決定した後、ユーザによるその中の１つの記録文に対するトリガーを受け付けた後、この記録文及びその前後にある複数の文を提示することができ、ターゲット記録文を単独で提示した場合にユーザが理解しにくくなることは避けられ、ユーザに内容を理解させやすく、記録文の表示効果を高め、さらにユーザの体験効果を向上させる。

図６は、本開示の一実施形態に係る電子機器の構造概略図である。以下、図６を参照し、本開示の実施形態を実施するのに適している電子機器６００の構造概略図が示されている。本開示の実施例における電子機器６００は、携帯電話、ノートブックコンピュータ、デジタル放送受信機、ＰＤＡ（携帯情報端末）、ＰＡＤ（タブレット）、ＰＭＰ（携帯型マルチメディアプレーヤー）、車載端末（例えば、車載ナビゲーション端末など）などの移動端末、及びデジタルテレビ、デスクトップコンピュータなどの固定端末を含み得るが、これらに限定されない。図６に示される電子機器は単なる一例に過ぎず、本開示の実施形態の機能及び使用範囲にいかなる制限もかけるべきではない。

図６に示すように、電子機器６００は、読み取り専用メモリ（ＲＯＭ）６０２に格納されたプログラムまたは記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３内にロードされたプログラムに従い、様々な適切な動作と処理を実行することができる、処理装置（例えばＣＰＵ、グラフィックプロセッサなど）６０１を含むことができる。ＲＡＭ６０３には、電子機器６００を操作するのに必要な様々なプログラム及びデータも格納されている。処理装置６０１、ＲＯＭ６０２及びＲＡＭ６０３は、バス６０４を介して互いに接続されている。入出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

典型的には、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロスコープなどを含む入力装置６０６、液晶ディスプレイ（ＬＣＤ）、スピーカー、振動コンピュータなどを含む出力装置６０７、磁気テープ、ハードディスクなどを含む記憶装置６０８、及び通信装置６０９は、Ｉ／Ｏインターフェース６０５に接続され得る。通信装置６０９は、電子機器６００が他の機器と無線または有線で通信してデータを交換することを可能にする。図６には各種の装置を有する電子機器６００が示されているが、図示された装置のすべてを実施または具備することが要求されるわけではないことに理解されたい。代替的に、より多くのまたはより少ない装置を実施または具備することができる。

特に、本開示の実施形態によれば、フローチャートを参照して上記で説明された過程はコンピュータソフトウェアプログラムとして実現され得る。例えば、本開示の実施形態は、非一時的なコンピュータ可読媒体に担持されるコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施形態では、コンピュータプログラムは、通信装置６０９を介してネットワークからダウンロード及びインストールされ得るか、または記憶装置６０８やＲＯＭ６０２からインストールされ得る。コンピュータプログラムが処理装置７１０によって実行されるとき、本開示の実施形態に係る議事録の処理方法で限定された上記の機能が実行される。

なお、本開示で言及されるコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体、あるいは上記２つの任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気的、磁気的、光学的、電磁気的、赤外線または半導体システム、装置またはデバイス、あるいは上記の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例には、１つ以上のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラミング可能読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。本開示では、コンピュータ可読記憶媒体は、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用することができるプログラムを含むか、または格納する任意の有形媒体であり得る。本開示では、コンピュータ可読信号媒体は、ベースバンドで、またはコンピュータ可読プログラムコードが格納された搬送波の一部として伝搬されるデータ信号を含み得る。そのように伝搬されたデータ信号は、様々な形態をとることができ、電磁信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であり得、当該コンピュータ可読信号媒体は、指令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを送信、伝搬、または伝送することができる。コンピュータ可読媒体に含まれるプログラムコードは、電線、光ファイバーケーブル、ＲＦ（無線周波数）、または上記の任意の適切な組み合わせなどを含むがこれらに限定されない任意の適切な媒体を使用して伝送され得る。

いくつかの実施形態では、クライアント端末、サーバーは、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ,ハイパーテキスト転送プロトコル）などの現在既知のまたは将来開発される任意のネットワークプロトコルを利用して通信することができ、任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）と相互接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、インターネット（例えば、Ｉｎｔｅｒｎｅｔなど）、及びピアツーピアネットワーク（例えば、ａｄｈｏｃピアツーピアネットワークなど）、ならびに現在既知のまたは将来開発されるネットワークが挙げられる。

上記のコンピュータ可読媒体は、上記の電子機器に含まれていてもよく、上記の電子装置に組み込まれずに単独で存在していてもよい。

上記のコンピュータ可読媒体には、１つ以上のプログラムが格納されている。該１つ以上のプログラムが上記電子機器によって実行されるとき、上記電子機器に、会議オーディオ・ビデオの会議テキストを取得するステップと、前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップと、前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するステップと、前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップを実行させる。

または、上記のコンピュータ可読媒体には、１つ以上のプログラムが格納されている。該１つ以上のプログラムが上記電子機器によって実行されるとき、上記電子機器に、議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップを実行させる。

また、本開示の操作を実行するためのコンピュータプログラムコードは、１つ以上のプログラミング言語またはそれらの組み合わせで書くことができる。上記のプログラミング言語には、Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語が含まれるが、これらに限定されず、さらに「Ｃ」言語または同様のプログラミング言語などの従来の手続き型プログラミング言語が含まれる。プログラムコードは、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータまたはサーバー上で実行され得る。リモートコンピュータが関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されるか、または、外部コンピュータに接続される（例えば、インターネットサービス事業者によってインターネット接続を介して接続する）ことができる。

図面におけるフローチャート及びブロック図は、本開示の様々な実施例に係るシステム、方法、及びコンピュータプログラム製品による実現可能なシステムアーキテクチャ、機能及び操作を示している。この点に関して、フローチャートまたはブロック図の各ブロックは、所定の論理機能を実現するための１つ以上の実行可能な指令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。なお、いくつかの代替的な実現では、ブロックに注記されている機能が、図示されている順序とは異なる順で発生する場合もあることに注意されたい。例えば、連続して表示される２つのブロックは、実際にほぼ並行して実行される場合もあれば、逆な順序に従って実行される場合もあるが、関連する機能に応じて決定される。なお、ブロック図及び／またはフローチャート図の各ブロック、ブロック図及び／またはフローチャート図のブロックの組み合わせは、所定の機能または操作を実行するための専用のハードウェアベースのシステムによって実現されるか、または専用のハードウェアとコンピュータ指令の組み合わせによって実現されることができる。

本開示の実施例に言及されたユニットは、ソフトウェアまたはハードウェアで実現され得る。ここで、ユニットの名称は、ある場合、当該ユニット自体への限定にならない。

本明細書で上述した機能は、少なくとも部分的に、１つ以上のハードウェアロジック部材によって実行され得る。例えば、これらに限定されないが、使用できるハードウェアロジック部材の例示的なタイプには、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブル論理デバイス（ＣＰＬＤ）などが含まれている。

本開示の文脈において、機械可読媒体は、命令実行システム、装置またはデバイスによって、またはそれらと組み合わせて使用されるためのプログラムを含むか、または格納することができる有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体には、電子的、磁気的、光学的、電磁的、赤外線、または半導体システム、装置またはデバイス、あるいは上記の任意の適切な組み合わせが含まれてもよいが、これらに限定されない。機械可読記憶媒体のより具体的な例には、１つまたは複数のワイヤによる電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラムミング可能な読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光ストレージ、磁気ストレージ、または上記の任意の適切な組み合わせが含まれる。

本開示の１つ以上の実施形態によれば、本開示は、
会議オーディオ・ビデオの会議テキストを取得するステップと、
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップと、
前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するステップと、
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップと、を含む、議事録の処理方法を提供する。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップは、
前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップであって、前記ＴｏＤｏ認識モデルが、単一分類モデルであるステップを含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記ＴｏＤｏ認識モデルは以下の方法で生成される、即ち、
ＴｏＤｏ文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ＴｏＤｏ認識モデルを得る。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップは、
前記時制の結果が未来形である初期ＴｏＤｏ文を会議ＴｏＤｏ文として決定するステップを含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、会議オーディオ・ビデオの会議テキストを取得するステップの後に、
前記会議テキストを文分割して、複数のテキスト文を得るステップと、
所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするステップと、をさらに含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
意図語が欠落しているテキスト文を削除するステップ、及び／または、
文字列の長さが長さ閾値未満のテキスト文を削除するステップ、及び／または、
名詞が欠落しているテキスト文を削除するステップを含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するステップを含む。

本開示の１つ以上の実施形態によれば、本開示は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップと、を含む、議事録の処理方法を提供する。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文はターゲット会議ＴｏＤｏ文を含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する前記ステップは、
前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するステップを含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理方法において、
前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するステップをさらに含む。

本開示の１つ以上の実施形態によれば、本開示は、
会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュールと、
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するための初期ＴｏＤｏモジュールと、
前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するための時制判断モジュールと、
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するための会議ＴｏＤｏモジュールと、を含む、議事録の処理装置を提供する。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記初期ＴｏＤｏモジュールは、具体的に、
前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するために使用され、前記ＴｏＤｏ認識モデルは単一分類モデルである。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記装置はさらに、
ＴｏＤｏ文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ＴｏＤｏ認識モデルを得るためのモデルトレーニングモジュールを含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記会議ＴｏＤｏモジュールは、具体的に、
前記時制の結果が未来形である初期ＴｏＤｏ文を会議ＴｏＤｏ文として決定するために使用される。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記装置は、前処理モジュールをさらに含み、前処理モジュールは、
会議オーディオ・ビデオの会議テキストを取得した後に、
前記会議テキストを文分割して、複数のテキスト文を取得し、
所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするために使用される。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記前処理モジュールは、具体的に、
意図語が欠落しているテキスト文を削除する、及び／または、
文字列の長さが長さ閾値未満のテキスト文を削除する、及び／または、
名詞が欠落しているテキスト文を削除するために使用される。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記前処理モジュールは、具体的に、
所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するために使用される。

本開示の１つ以上の実施形態によれば、本開示は、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュールであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュールと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュールとを含む、議事録の処理装置を提供する。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文はターゲット会議ＴｏＤｏ文を含む。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記表示モジュールは、具体的に、
前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するために使用される。

本開示の１つ以上の実施形態によれば、本開示に係る議事録の処理装置において、前記装置はさらに、
前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するための関連付けインタラクションモジュールを含む。

本開示の１つ以上の実施形態によれば、本開示は、
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み取って実行することで、本開示に係るいずれか１つの議事録の処理方法を実現するために使用される、電子機器を提供する。

本開示の１つ以上の実施形態によれば、本開示は、本開示に係るいずれか１つの議事録の処理方法を実行するためのコンピュータプログラムが記憶されたコンピュータ可読記憶媒体を提供する。

以上の記述は、本開示の好適な実施形態及び利用された技術原理を説明するものに過ぎない。本開示に係る開示の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術方案に限定されるものではなく、同時に、上記の開示の構想を逸脱することなく、上記の技術的特徴または均等的な特徴を任意に組み合わせることによって形成された他の技術方案、例えば上記の特徴を、本開示に開示された（ただしこれに限定されない）同様な機能を有する技術的特徴に置き換えることによって形成された技術方案も含まれるべきであることは、当業者に理解されるべきであろう。

また、各操作は特定の順序で説明されているが、これらの操作が示されている特定の順序または順番に従って実行されることを要求すると解釈されるべきではない。ある特定の環境下では、マルチタスクと並列処理が有利である場合がある。同様に、以上の記述には、いくつかの具体的な実現の詳細が含まれているが、本開示の範囲を限定するものと解釈されるべきではない。単独の実施形態の文脈において説明されるある特徴はまた、単一の実施形態において組み合わせて実施され得る。逆に、単一の実施形態の文脈において説明される様々な特徴はまた、単独で、または任意の適切なサブ組み合わせの形で複数の実施形態において実施され得る。

本主題は、構造的特徴及び／または方法の論理的動作に固有の言語で説明されているが、添付される特許請求の範囲で限定される主題は、必ずしも上述した特定の特徴や動作に限定されるものではなく、むしろ、上述した特定の特徴及び動作は、特許請求の範囲を実現するための単なる例示的な形態に過ぎないことは、理解されるべきであろう。

Claims

電子機器が実行する議事録の処理方法であって、
会議オーディオ・ビデオの会議テキストを取得するステップと、
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップと、
前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するステップと、
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するステップと、
を含むことを特徴とする方法。
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定する前記ステップは、
前記会議テキストにおけるテキスト文を文ベクトルに変換し、前記文ベクトルを前記ＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するステップであって、前記ＴｏＤｏ認識モデルが、単一分類モデルであるステップを含む、
ことを特徴とする請求項１に記載の方法。
前記ＴｏＤｏ認識モデルは、ＴｏＤｏ文のポジティブサンプルに基づいて、初期単一分類モデルをトレーニングすることによって、前記ＴｏＤｏ認識モデルを得る方法で生成される、
ことを特徴とする請求項１に記載の方法。
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定する前記ステップは、
前記時制の結果が未来形である初期ＴｏＤｏ文を会議ＴｏＤｏ文として決定するステップを含む、
ことを特徴とする請求項１に記載の方法。
会議オーディオ・ビデオの会議テキストを取得する前記ステップの後に、
前記会議テキストを文分割して、複数のテキスト文を得るステップと、
所定のルールに基づいて前記テキスト文を前処理することによって、前記テキスト文をフィルタリングするステップと、
をさらに含む、ことを特徴とする請求項１に記載の方法。
所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
意図語が欠落しているテキスト文を削除するステップ、及び／または、
文字列の長さが長さ閾値未満のテキスト文を削除するステップ、及び／または、
名詞が欠落しているテキスト文を削除するステップを含む、
ことを特徴とする請求項５に記載の方法。
所定のルールに基づいて前記テキスト文を前処理する前記ステップは、
所定の文型に基づいて、前記テキスト文に対して文型マッチングを行い、前記所定の文型を満たさないテキスト文を削除するステップを含む、
ことを特徴とする請求項５に記載の方法。
電子機器が実行する議事録の処理方法であって、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるステップであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示されるステップと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するステップと、
を含む、ことを特徴とする方法。
前記関連文は、前記会議テキストにおいて前記ターゲット記録文と位置的に関連付けられた字幕文を含み、前記会議テキストには、複数の前記字幕文が含まれ、前記ターゲット記録文は、ターゲット会議ＴｏＤｏ文を含む、
ことを特徴とする請求項８に記載の方法。
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示する前記ステップは、
前記ターゲット記録文及び前記ターゲット記録文の関連文を議事録表示インターフェースのフローティングウィンドウに表示するステップを含む、
ことを特徴とする請求項８に記載の方法。
前記会議オーディオ・ビデオを前記ターゲット記録文の関連期間に基づいて再生するとともに、前記会議テキストにおける前記ターゲット記録文の関連字幕を強調表示するステップをさらに含む、
ことを特徴とする請求項８に記載の方法。
議事録の処理装置であって、
会議オーディオ・ビデオの会議テキストを取得するためのテキスト取得モジュールと、
前記会議テキストをＴｏＤｏ認識モデルに入力して、初期ＴｏＤｏ文を決定するための初期ＴｏＤｏモジュールと、
前記初期ＴｏＤｏ文を時制判断モデルに入力して、前記初期ＴｏＤｏ文の時制の結果を決定するための時制判断モジュールと、
前記時制の結果に基づいて、前記初期ＴｏＤｏ文における会議ＴｏＤｏ文を決定するための会議ＴｏＤｏモジュールと、
を含むことを特徴とする装置。
議事録の処理装置であって、
議事録表示インターフェースにおけるターゲット記録文に対するユーザの表示トリガー操作を受け付けるための表示トリガーモジュールであって、前記議事録表示インターフェースには、会議オーディオ・ビデオ、前記会議オーディオ・ビデオの会議テキスト及び前記ターゲット記録文が表示される表示トリガーモジュールと、
前記ターゲット記録文及び前記ターゲット記録文の関連文を表示するための表示モジュールと、
を含むことを特徴とする装置。
プロセッサと、
前記プロセッサによって実行可能な命令を記憶するためのメモリとを含み、
前記プロセッサは、前記メモリから前記実行可能な命令を読み取って実行することで、請求項１から１１のいずれか１項に記載の議事録の処理方法を実現する、
ことを特徴とする、電子機器。
コンピュータ可読記憶媒体であって、
コンピュータプログラムが記憶されており、前記コンピュータプログラムは、請求項１から１１のいずれか１項に記載の議事録の処理方法を実行するために使用される、
ことを特徴とする、コンピュータ可読記憶媒体。