JP7344612B1 - プログラム、会話要約装置、および会話要約方法 - Google Patents

プログラム、会話要約装置、および会話要約方法 Download PDF

Info

Publication number
JP7344612B1
JP7344612B1 JP2023069090A JP2023069090A JP7344612B1 JP 7344612 B1 JP7344612 B1 JP 7344612B1 JP 2023069090 A JP2023069090 A JP 2023069090A JP 2023069090 A JP2023069090 A JP 2023069090A JP 7344612 B1 JP7344612 B1 JP 7344612B1
Authority
JP
Japan
Prior art keywords
partial
unit
string
conversation
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023069090A
Other languages
English (en)
Inventor
真司 高信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amptalk
Original Assignee
Amptalk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amptalk filed Critical Amptalk
Priority to JP2023069090A priority Critical patent/JP7344612B1/ja
Application granted granted Critical
Publication of JP7344612B1 publication Critical patent/JP7344612B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力することができなかった。【解決手段】複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択部134と、1以上の各部分文字列ごとに、部分文字列を要約した文字列である要約文字列を取得する要約部135と、要約部135が取得した1以上の要約文字列を出力する要約出力部144とを具備する会話要約装置1により、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。【選択図】図2

Description

本発明は、会話の中の一部の発言を要約し、出力する会話要約装置等に関するものである。
従来、機械学習を用いて、文書の要約を行う機械学習プログラムがあった(特許文献1参照)。
特開2022-152367号公報
しかしながら、従来技術においては、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できなかった。
本第一の発明の会話要約装置は、複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択部と、1以上の各部分文字列ごとに、部分文字列を要約した文字列である要約文字列を取得する要約部と、要約部が取得した1以上の要約文字列を出力する要約出力部とを具備する会話要約装置である。
かかる構成により、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。
また、本第二の発明の会話要約装置は、第一の発明に対して、選択条件は、発話したユーザに関する条件であるユーザ条件を含み、1以上の各部分文字列に対して、部分文字列に対する発話を行ったユーザを決定するユーザ決定部をさらに具備し、選択部は、ユーザ決定部が決定したユーザのうち、選択条件に合致するユーザに対する1以上の部分文字列を取得する会話要約装置である。
かかる構成により、要約が必要なユーザの発話に対して、要約を得ることができる。
また、本第三の発明の会話要約装置は、第二の発明に対して、選択部は、複数の各ユーザごとに、ユーザに対応する発話の属性値を取得する属性値取得手段と、複数の各ユーザごとの属性値が、選択条件に合致する発話に対する1以上の部分文字列を取得する選択手段とを具備する会話要約装置である。
かかる構成により、要約が必要なユーザの発話に対して、要約を得ることができる。
また、本第四の発明の会話要約装置は、第三の発明に対して、属性値取得手段が取得する属性値は、発話の長さに関する長さ情報であり、選択条件は、所定区間におけるユーザごとの長さ情報の合計が最も長いユーザに対する部分文字列を除くことである会話要約装置である。
かかる構成により、要約が必要なユーザの発話に対して、要約を得ることができる。
また、本第五の発明の会話要約装置は、第一の発明に対して、選択条件は、発話の属性値に関する条件である発話条件を含み、選択部は、複数の各ユーザの発話ごとに、発話の属性値を取得する属性値取得手段と、発話の属性値が、選択条件に合致する発話に対する1以上の部分文字列を取得する選択手段とを具備する会話要約装置である。
かかる構成により、要約が必要な発話に対して、要約を得ることができる。
また、本第六の発明の会話要約装置は、<従属関係 なし>の発明に対して、発話の属性値は、発話の長さに関する長さ情報であり、選択条件は、長さ条件を満たす長い発話であることを示す長さ情報に対応する部分文字列を選択することである請求項5記載載の会話要約装置である。
かかる構成により、要約が必要な発話に対して、要約を得ることができる。
また、本第七の発明の会話要約装置は、<従属関係 なし>の発明に対して、発話の属性値は、品詞を含み選択条件は、特定の品詞に対応する部分を含まない部分文字列を選択することである請求項5記載載の会話要約装置である。
かかる構成により、要約が不要な品詞に対応する発話に対して、要約を作成しないために、ユーザは必要な要約を得ることができる。
また、本第八の発明の会話要約装置は、第一の発明に対して、会話情報には、タイトル情報が対応付いており、選択条件は、タイトル情報に対して、所定の関係がある部分文字列であることである会話要約装置である。
かかる構成により、要約が必要な発話に対して、要約を得ることができる。
また、本第九の発明の会話要約装置は、第一から第八いずれか1つの発明に対して、要約部は、1以上の各部分文字列ごとに、2種類以上の要約文字列を取得し、要約出力部は、1以上の各部分文字列ごとに、2種類以上の要約文字列を出力する会話要約装置である。
かかる構成により、必要な2以上の種類の要約を得ることができる。
また、本第十の発明の会話要約装置は、第一から第九いずれか1つの発明に対して、部分文字列または部分文字列に対応する要約文字列の重要度を取得する重要度取得部と、重要度を出力する重要度出力部とをさらに具備する会話要約装置である。
かかる構成により、発話に対する重要度を出力できる。
また、本第十一の発明の会話要約装置は、第一から第十いずれか1つの発明に対して、会話における時間の推移を特定するユーザインターフェースである推移UIを出力するUI出力部と、要約文字列の元になる部分文字列に対応する箇所であり、推移UIの中の特定の箇所である要約箇所を明示する出力を行う箇所出力部とをさらに具備する会話要約装置である。
かかる構成により、会話の全体の中で、要約に対応する箇所を明示できる。
また、本第十二の発明の会話要約装置は、第一から第十一いずれか1つの発明に対して、会話における映像と音声情報とを含む会話情報が格納される会話格納部と、要約出力部が出力した1以上の要約文字列の中の一の要約文字列に対する指示である要約指示を受け付ける指示受付部と、一の要約文字列に対応する要約箇所に対応する映像を出力する映像出力部とをさらに具備する会話要約装置である。
かかる構成により、要約に対応する映像を容易に出力できる。
本発明による会話要約装置によれば、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。
実施の形態1における情報システムAの概念図 同情報システムAのブロック図 同会話要約装置1の動作例について説明するフローチャート 同音声分割処理の例について説明するフローチャート 同選択処理の例について説明するフローチャート 同要約処理の例について説明するフローチャート 同重要度取得処理の例について説明するフローチャート 同画面構成処理の例について説明するフローチャート 同再生処理の例について説明するフローチャート 同端末装置2の動作例について説明するフローチャート 同条件管理表を示す図 同出力イメージ図 同コンピュータシステムの概観図 同コンピュータシステムのブロック図
以下、会話要約装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、会話情報を取得し、当該会話情報における一部の発言を要約し、出力する会話要約装置について説明する。
また、本実施の形態において、会話の中で、1以上の各発話に対する重要度を取得し、出力する会話要約装置について説明する。
また、本実施の形態において、会話における時間の推移を特定するユーザインターフェースである推移UIを出力し、要約に対応する箇所であり、当該推移UIの中の箇所を明示する会話要約装置について説明する。
さらに、本実施の形態において、要約と会議の映像の特定箇所とのリンク付けが行われる会話要約装置について説明する。
なお、本明細書において、情報Xが情報Yに対応付いていることは、情報Xから情報Yを取得できること、または情報Yから情報Xを取得できることであり、その対応付けの方法は問わない。情報Xと情報Yとがリンク付いていても良いし、同じバッファに存在していても良いし、情報Xが情報Yに含まれていても良いし、情報Yが情報Xに含まれている等でも良い。
図1は、本実施の形態における情報システムAの概念図である。情報システムAは、会話要約装置1、および1または2以上の端末装置2を備える。
会話要約装置1は、会話を要約し、要約文字列を取得し、出力する装置である。会話要約装置1は、例えば、クラウドサーバ、ASPサーバであるが、その種類は問わない。会話要約装置1が端末である場合、情報システムAに端末装置2は不要である、または会話要約装置1が端末装置2を兼ねる、と考えて良い。
端末装置2は、ユーザが使用する端末である。ユーザは、例えば、会議の参加者、会議の参加者と同じ部署の者である。端末装置2には、要約文字列等が出力される。端末装置2は、例えば、いわゆるパソコン、スマートフォン、タブレット端末であるが、その種類は問わない。
会話要約装置1と1または2以上の各端末装置2とは、インターネット等のネットワークにより通信可能である。
図2は、本実施の形態における情報システムAのブロック図である。情報システムAを構成する会話要約装置1は、格納部11、受付部12、処理部13、および出力部14を備える。
格納部11は、会話格納部111、および条件格納部112を備える。受付部12は、指示受付部121を備える。処理部13は、文字列取得部131、ユーザ決定部132、重要度取得部133、選択部134、および要約部135を備える。選択部134は、属性値取得手段1341、および選択手段1342を備える。出力部14は、音声出力部141、映像出力部142、UI出力部143、要約出力部144、重要度出力部145、および箇所出力部146を備える。
端末装置2は、端末格納部21、端末受付部22、端末処理部23、端末送信部24、端末受信部25、および端末出力部26を備える。
会話要約装置1を構成する格納部11には、各種の情報が格納される。各種の情報は、例えば、後述する会話情報、後述する選択条件である。
会話格納部111には、1または2以上の会話情報が格納される。会話情報は、音声情報を有する。会話情報は、映像を有することは好適である。会話情報は、音声情報だけでも良い。
会話情報とは、複数のユーザ間の会話の間に取得された情報である。音声情報は、複数のユーザ間の会話の間の音声を録音された情報である。映像は、複数のユーザ間の会話の際に録画された動画である。会話は、例えば、会議における会話であるが、その内容等は問わない。会話は、ビジネスにおける会議での会話であることは好適であるが、会話の目的や内容は問わない。なお、会話は、会議と言い換えても良い場合がある。会議は、いわゆるウェブ会議であることは好適である。
会話情報には、1または2以上の会話属性値が対応付いていることは好適である。会話属性値とは、会話に関する属性値である。会話属性値は、例えば、タイトル情報、主催者情報、1以上の参加者情報、日時、時間帯である。
タイトル情報とは、会話のタイトルを特定する情報である。タイトル情報は、通常、文字列である。
主催者情報とは、主催者に関する情報である。主催者情報は、例えば、主催者識別子、1以上の主催者属性値を有する。主催者識別子とは、主催者を識別する情報である。主催者識別子は、例えば、主催者の氏名、主催者のIDである。主催者属性値は、例えば、主催者の所属、主催者の役職である。主催者の所属は、例えば、主催者の会社名、主催者の所属部署名である。
参加者情報とは、参加者に関する情報である。参加者情報は、例えば、参加者識別子、1以上の参加者属性値を有する。参加者識別子とは、参加者を識別する情報である。参加者識別子は、例えば、参加者の氏名、参加者のIDである。参加者属性値は、例えば、参加者の所属、参加者の役職である。参加者の所属は、例えば、参加者の会社名、参加者の所属部署名である。参加者とは、会話の参加者である。
日時とは、会話の開始日時、または/および終了日時である。時間帯とは、会話の時間帯を特定する情報である。
条件格納部112には、1または2以上の選択条件が格納される。選択条件とは、部分音声または部分文字列を選択するための条件である。選択条件は、選択しないことを判断するための除外条件でも良い。つまり、選択するための条件とは、選択しないための条件を含んでも良い。選択条件は、部分音声に関する条件でも、部分文字列に関する条件でも良い。部分音声を選択することと部分文字列を選択することである。
部分音声とは、音声情報の一部分である。部分文字列とは、部分音声を文字認識した結果の文字列、または音声情報を文字認識した結果の文字列である音声文字列の一部分である。
1以上の各選択条件は、例えば、ユーザ条件、発話条件、または内容条件である。ユーザ条件とは、発話するユーザに関する条件である。ユーザ条件は、例えば、「主催者を除く」「最も長く話しをしているユーザを除く」である。発話条件とは、発話の属性値に関する条件である。発話条件は、例えば、「長さ条件を満たす長い発話であることを示す長さ情報に対応すること」「特定の品詞の用語を含まないこと」である。内容条件とは、発話の内容に関する条件である。内容条件は、例えば、「あいさつの発話は除く」「タイトル情報との関連度が閾値以上または閾値より大きいこと」である。
長さ条件とは、発話の長さに関する条件である。長さ情報とは、発話の長さを特定する情報である。「長さ条件を満たす長い発話であることを示す長さ情報に対応すること」は、「発話の長さが閾値以上または閾値より長いこと」である。特定の品詞は、例えば、感嘆詞である。関連度とは、タイトル情報と部分文字列との関連度である。関連度は、例えば、タイトル情報が有する用語と部分文字列が有する用語の中で共通する用語の数が多いほど、大きな値となる。関連度は、例えば、タイトル情報が有する用語と部分文字列が有する用語の中で共通する用語の数をパラメータとする増加関数により算出される値である。関連度は、例えば、タイトル情報のクラスと部分文字列のクラスとが同じクラスである場合は「1」、タイトル情報のクラスと部分文字列のクラスとが同じクラスでない場合は「0」である。なお、文や文章等の文字列のクラスを決定する技術は公知技術であるので、詳細な説明は省略する。クラスは、後述するトピックでも良い。
受付部12は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、後述する出力指示、要約指示、再生指示、会議情報、音声情報、選択条件である。
受付部12は、例えば、図示しないウェブ会議サーバ、または端末装置2から、会議情報または音声情報を受信する。
ここでは、受け付けとは、通常、端末装置2からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念であっても良い。
各種の指示や情報の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部12は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
指示受付部121は、各種の指示を受け付ける。指示受付部121は、例えば、出力指示を受け付ける。出力指示とは、要約文字列の出力の指示である。出力指示は、会議情報と1以上の要約文字列とを含む情報を出力する指示でも良い。出力指示は、例えば、会議情報を特定する識別子を有する。指示受付部121は、例えば、要約指示を受け付ける。要約指示とは、要約出力部144が出力した1以上の要約文字列の中の一の要約文字列に対する指示である
処理部13は、各種の処理を行う。各種の処理とは、例えば、文字列取得部131、ユーザ決定部132、重要度取得部133、選択部134、要約部135が行う処理である。
処理部13は、例えば、2以上の端末装置2の間で、ウェブ会議を行う機能を遂行する。ウェブ会議を行う機能は公知技術であるので、詳細な説明を省略する。
処理部13は、例えば、受付部12が受け付けた情報を格納部11に蓄積する。受付部12が受け付けた情報は、例えば、会議情報、選択条件である。
文字列取得部131は、音声情報に対して音声認識処理を行った結果である会話文字列を取得する。文字列取得部131が音声情報に対して音声認識処理を行っても良いし、図示しない音声認識サーバに音声情報を渡し、当該音声認識サーバから会話文字列を受信しても良い。つまり、音声認識処理を行う装置またはプログラムの存在場所は問わない。
ユーザ決定部132は、1以上の各部分文字列に対して、部分文字列に対する発話を行ったユーザを決定する。部分文字列に対する発話を行ったユーザとは、当該部分文字列の元になった部分音声の発話を行ったユーザである。
ユーザ決定部132は、通常、音声情報に基づいて、部分文字列に対する発話を行ったユーザを決定することは好適である。ユーザ決定部132は、例えば、音声情報を分割した部分音声から1以上の音声特徴量を取得し、当該1以上の音声特徴量を用いて、当該部分音声を発話したユーザを決定する。ユーザ決定部132は、例えば、部分音声と対にして、ユーザ識別子を取得する。
ユーザ決定部132は、例えば、部分音声と対になっているユーザ識別子を取得する。かかる場合、音声情報の1以上の各部分音声には、ユーザ識別子が対応付いている。
重要度取得部133は、部分文字列または部分文字列に対応する要約文字列の重要度を取得する。重要度取得部133は、例えば、1以上の各要約文字列ごとに重要度を取得する。要約文字列ごととは、部分文字列ごとである、と考えても良い。
重要度とは、部分文字列または要約文字列の会話における重要な度合いである。部分文字列または要約文字列の会話における重要な度合いは、部分音声に対する発話の重要な度合いであるとも言える。重要度は、例えば、1から5のいずれかの数値、「A」「B」「C」のうちのいずれか等である。ただし、重要度の表記は問わない。
重要度取得部133は、例えば、部分文字列または要約文字列の1以上の属性値を取得し、当該1以上の属性値を用いて、重要度を取得する。部分文字列または要約文字列の属性値は、その元になった部分音声の属性値でも良い。1以上の属性値は、例えば、タイトル情報との関連度、長さ情報である。
重要度取得部133は、例えば、タイトル情報との関連度が大きいほど、大きな値の重要度を取得する。重要度取得部133は、例えば、長さ情報が大きいほど、大きな値の重要度を取得する。
選択部134は、選択条件に合致する1以上の部分文字列を取得する。選択部134は、通常、2以上の部分文字列から1以上の部分文字列を選択して取得する。選択部134は、例えば、2以上の部分音声の中から、選択条件に合致する1以上の各部分音声を決定し、当該1以上の各部分音声に対応する部分文字列を取得する。選択部134は、例えば、2以上の部分文字列の中から、選択条件に合致する1以上の部分文字列を取得する。なお、部分音声は、複数のユーザ間の会話の音声情報の中の一部の音声情報である。
選択条件に合致することは、選択条件の一種である除外条件に合致しないことと同じ意味である、と考えても良い。
選択部134は、例えば、ユーザ決定部132が決定したユーザのうち、選択条件に合致するユーザに対する1以上の部分文字列を取得する。
選択部134は、例えば、音声情報を含む会話情報に対して音声認識処理を行った結果である会話文字列を取得する。次に、選択部134は、例えば、会話文字列を2以上の部分文字列に分割し、当該2以上の部分文字列の中から、選択条件に合致する1以上の部分文字列を取得する。
選択部134は、例えば、音声情報を取得する。次に、選択部134は、例えば、当該音声情報を2以上の部分音声に分割し、2以上の各部分音声の1以上の音声特徴量が択条件に合致する1以上の部分音声を決定し、当該1以上の各部分音声に対して音声認識処理を行った結果である1以上の部分文字列を取得する。
属性値取得手段1341は、1以上の各発話の1以上の属性値を取得する。属性値は、例えば、ユーザ属性値、または発話属性値である。
属性値取得手段1341は、例えば、複数の各ユーザごとに、1以上のユーザ属性値を取得する。ユーザ属性値は、例えば、当該ユーザの発話の全体の長さ、主催者であるか否かを示す情報である。
属性値取得手段1341は、例えば、複数の各ユーザごとに、ユーザに対応する発話の属性値である発話属性値を取得する。属性値取得手段1341は、例えば、複数の各ユーザの発話ごとに、発話属性値を取得する。属性値取得手段1341が発話属性値を取得する場合、通常、部分音声または部分文字列を用いる。発話属性値は、例えば、発話の長さに関する長さ情報、用語の品詞である。
選択手段1342は、例えば、複数の各ユーザごとの属性値が、選択条件に合致する発話に対する1以上の部分文字列を取得する。
選択手段1342は、例えば、発話の属性値が、選択条件に合致する発話に対する1以上の部分文字列を取得する。
要約部135は、1以上の各部分文字列ごとに、部分文字列を要約した文字列である要約文字列を取得する。要約部135は、通常、選択部134が選択した1以上の各部分文字列ごとに、要約文字列を取得する。なお、要約部135は、すべての部分文字列ごとに、要約文字列を取得しても良い。ただし、出力される要約文字列は、選択手段1342が選択した部分文字列に対応する要約文字列のみであること好適である。
要約部135は、図示しない要約サーバに部分文字列を渡し、当該要約サーバから当該部分文字列に対応する要約文字列を受信しても良い。
要約部135は、1以上の各部分文字列ごとに、2種類以上の要約文字列を取得することは好適である。なお、2種類以上の要約文字列は、通常、長さが異なる。2種類以上の要約文字列は、例えば、タイトルと文集合である。2種類以上の要約文字列は、例えば、トピックとタイトルと文集合である。トピックとは、発話の話題を特定する情報である。タイトルとは、発話の見出しである。文集合とは、文章を要約して、取得された1以上の文の集合である。
要約部135は、例えば、生成型の人工知能であるChatGPTに部分文字列を与え、当該部分文字列のトピックを出力するように指示し、ChatGPTから当該部分文字列のトピックを取得する。また、要約部135は、例えば、生成型の人工知能であるChatGPTに部分文字列を与え、当該部分文字列のタイトルを出力するように指示し、ChatGPTから当該部分文字列のタイトルを取得する。さらに、要約部135は、例えば、生成型の人工知能であるChatGPTに部分文字列を与え、当該部分文字列を要約するように指示し、ChatGPTから当該部分文字列の要約文を取得する。
要約部135は、例えば、書籍「テキスト自動要約 (知の科学)」(奥村学他,オーム社)に記載されている自動要約の技術を用いて、部分文字列から要約文字列を取得する。なお、要約部135が部分文字列から要約文字列を取得するアルゴリズムは問わない。
出力部14は、各種の情報を出力する。各種の情報は、例えば、要約文字列、部分文字列、音声情報、映像、重要度、推移UIである。
ここで出力とは、通常、端末装置2への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念であっても良い。
音声出力部141は、音声情報を出力する。音声出力部141は、1または2以上の部分音声を出力する。
映像出力部142は、映像を出力する。映像出力部142は、例えば、要約指示に対応する一の要約文字列に対応する要約箇所に対応する映像を出力する。
UI出力部143は、会話における時間の推移を特定するユーザインターフェースである推移UIを出力する。推移UIは、例えば、バー状であるが、形状等は問わない。
要約出力部144は、要約部135が取得した1以上の要約文字列を出力する。
要約出力部144は、1以上の各部分文字列ごとに、2種類以上の要約文字列を出力することは好適である。
重要度出力部145は、重要度を出力する。重要度出力部145は、1以上の各要約文字列ごとに、重要度を出力することは好適である。
箇所出力部146は、要約文字列の元になる部分文字列に対応する箇所であり、推移UIの中の特定の箇所である要約箇所を明示する出力を行う。要約箇所を明示する出力の態様は問わない。要約箇所を明示する出力のトリガーは問わない。要約箇所を明示する出力は、例えば、要約の指示に基づく。
端末装置2を構成する端末格納部21には、各種の情報が格納される。各種の情報とは、例えば、ユーザ識別子である。なお、端末格納部21のユーザ識別子は、ユーザにより入力され、一時的に格納されている情報でも良い。
端末受付部22は、各種の情報や指示等を受け付ける。各種の情報や指示等とは、例えば、出力指示、要約指示、映像、音声情報である。
各種の情報や指示の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの、カメラ、マイク等、何でも良い。
端末処理部23は、各種の処理を行う。各種の処理は、例えば、受け付けられた情報や指示等を、送信する構造の情報や指示等にする処理である。各種の処理は、例えば、受信された情報を出力する構造の情報にする処理である。
端末送信部24は、各種の情報や指示等を会話要約装置1に送信する。各種の情報や指示等は、例えば、映像、音声情報、要約指示、ユーザ情報である。
端末受信部25は、各種の情報を会話要約装置1から受信する。各種の情報は、例えば、映像、音声情報、要約文字列、部分文字列、重要度、推移UIである。
端末出力部26は、各種の情報を出力する。各種の情報は、例えば、映像、音声情報、要約文字列、部分文字列、重要度、推移UIである。
格納部11、会話格納部111、条件格納部112、および端末格納部21は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
受付部12、および指示受付部121は、無線または有線の通信手段で実現されることが好適であるが、放送を受信する手段、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現されても良い。
処理部13、文字列取得部131、ユーザ決定部132、重要度取得部133、選択部134、要約部135、属性値取得手段1341、選択手段1342、および端末処理部23は、通常、プロセッサやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
端末受付部22は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア、カメラ、マイク等で実現され得る。
端末送信部24は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
端末受信部25は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
端末出力部26は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。端末出力部26は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、会話要約装置1の動作例について、図3のフローチャートを用いて説明する。
(ステップS301)指示受付部121は、出力指示を受け付けたか否かを判断する。出力指示を受け付けた場合はステップS302に行き、出力指示を受け付けなかった場合はステップS309に行く。ここで、指示受付部121は、例えば、出力指示を端末装置2から受信する。
(ステップS302)処理部13は、出力指示が特定する会話情報を会話格納部111から取得する。
(ステップS303)文字列取得部131は、ステップS302で取得された会話情報が有する音声情報に対して分割処理を行う。かかる音声分割処理の例について、図4のフローチャートを用いて説明する。なお、音声分割処理とは、音声情報を2以上の部分音声に区切る処理である。
(ステップS304)選択部134は、選択処理を行う。選択処理の例について、図5のフローチャートを用いて説明する。なお、選択処理とは、2以上の部分音声に対して、要約文字列を取得する対象を選択する処理である。2以上の部分音声に対して選択することは、2以上の部分文字列に対して選択することと同じ意味である。
(ステップS305)要約部135は、要約文字列を取得する。かかる要約処理の例について、図6のフローチャートを用いて説明する。
(ステップS306)重要度取得部133は、部分文字列に対応する重要度を取得する。重要度取得処理の例について、図7のフローチャートを用いて説明する。
(ステップS307)処理部13は、出力する画面の構成処理を行う。かかる画面構成処理の例について、図8のフローチャートを用いて説明する。
(ステップS308)出力部14は、ステップS307で構成された画面情報を出力する。ステップS301に戻る。ここで、出力部14は、例えば、端末装置2に画面情報を送信する。
(ステップS309)指示受付部121は、要約文字列に対する要約指示を受け付けたか否かを判断する。要約指示を受け付けた場合はステップS310に行き、要約指示を受け付けなかった場合はステップS313に行く。ここで、指示受付部121は、要約指示を端末装置2から受信する。
(ステップS310)処理部13は、要約指示に対応する要約文字列の箇所であり、要約文字列と対になる箇所である要約箇所を取得する。なお、要約箇所は、例えば、要約文字列に対応する部分音声の開始時を特定する情報である。
(ステップS311)箇所出力部146は、要約文字列の元になる部分文字列に対応する箇所であり、推移UIの中の特定の箇所である要約箇所を明示する出力を行う。箇所出力部146は、例えば、当該要約箇所を明示するバーを端末装置2に送信する。
(ステップS312)処理部13は、カレント情報を要約箇所に更新する。ステップS301に戻る。なお、カレント情報は、映像の中の再生するポイントを特定する情報である。
(ステップS313)指示受付部121は、再生指示を受け付けたか否かを判断する。再生指示を受け付けた場合はステップS314に行き、再生指示を受け付けなかった場合はステップS301に戻る。ここで、指示受付部121は、例えば、再生指示を端末装置2から受信する。
(ステップS314)処理部13は、再生処理を行う。ステップS301に戻る。なお、再生処理とは、会議情報の再生の処理である。再生処理の例について、図9のフローチャートを用いて説明する。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
次に、ステップS303の音声分割処理の例について、図4のフローチャートを用いて説明する。
(ステップS401)文字列取得部131は、カウンタiに1を代入する。
(ステップS402)文字列取得部131は、取得された会話情報に含まれる音声情報の中に、i番目の単位区間が存在するか否かを判断する。i番目の単位区間が存在する場合はステップS403に行く、i番目の単位区間が存在しない場合は上位処理にリターンする。
なお、単位区間とは、音声情報の中の区切りを検知するための対象の区間であり、1以上の音声特徴量を取得する区間である。
(ステップS403)文字列取得部131は、i番目の単位区間の音声情報から、1以上の音声特徴量を取得する。なお、音声特徴量は、例えば、メルスペクトル、MFCC、発話の速度等であるが、問わない。
(ステップS404)文字列取得部131は、ステップS403で取得した音声特徴量を用いて、i番目の単位区間が区切りであるか否かを判断する。区切りである場合はステップS405に行き、区切りでない場合はステップS409に行く。なお、ここで区切りは、通常、発話のユーザが変わった場合である。
(ステップS405)文字列取得部131は、音声情報の中のi番目の単位区間の箇所に、区切りを示す区切りタグを付加する。
なお、i番目の単位区間の箇所は、例えば、i番目の単位区間の直前、i番目の単位区間の直後、またはi番目の単位区間の中である。
また、文字列取得部131は、区切りタグを付加する以外の処理であり、区切りを明示する処理を行っても良い。区切りを明示する処理は、例えば、区切りの箇所を特定する箇所情報を図示しないバッファに蓄積する処理である。
(ステップS406)文字列取得部131は、前の区切りの単位区間の次の単位区間からi番目の単位区間までの一連の音声情報である部分音声を取得する。
(ステップS407)文字列取得部131は、ステップS406で取得した部分音声に対する音声認識結果である部分文字列を取得し、当該部分文字列を部分音声に対応付ける。
文字列取得部131は、例えば、ステップS405で取得した部分音声に対して音声認識処理を行い、部分文字列を取得する。文字列取得部131は、例えば、ステップS405で取得した部分音声を図示しない音声認識サーバに送信し、当該音声認識サーバから部分文字列を受信する。
(ステップS408)属性値取得手段1341は、部分音声を発話したユーザのユーザ識別子を取得し、当該ユーザ識別子を部分文字列および部分音声に対応付ける。なお、ユーザ識別子を取得する方法は問わない。
属性値取得手段1341は、例えば、ステップS403で取得した音声特徴量を用いて、ユーザ識別子を取得する。属性値取得手段1341は、例えば、部分音声に対応付いているユーザ識別子を取得する。
(ステップS409)文字列取得部131は、カウンタiを1、インクリメントする。ステップS402に戻る。
次に、ステップS304の選択処理の例について、図5のフローチャートを用いて説明する。
(ステップS501)選択部134は、カウンタiに1を代入する。
(ステップS502)属性値取得手段1341は、ステップS303で取得された部分文字列の中で、i番目の部分文字列が存在するか否かを判断する。i番目の部分文字列が存在する場合はステップS503に行き、i番目の部分文字列が存在しない場合はステップS505に行く。
(ステップS503)属性値取得手段1341は、i番目の部分文字列に対応する1以上の発話属性値を取得する。なお、i番目の部分文字列に対応する1以上の発話属性値は、i番目の部分文字列に対応する部分音声に対応する1以上の発話属性値でもある。
(ステップS504)選択部134は、カウンタiを1、インクリメントする。ステップS502に戻る。
(ステップS505)選択部134は、カウンタjに1を代入する。
(ステップS506)属性値取得手段1341は、会話に参加しているユーザのユーザ識別子の中で、j番目のユーザ識別子が存在するか否かを判断する。
(ステップS507)属性値取得手段1341は、j番目のユーザ識別子に対応する1以上のユーザ属性値を取得する。
(ステップS508)選択部134は、カウンタjを1、インクリメントする。ステップS506に戻る。
(ステップS509)選択部134は、カウンタiに1を代入する。
(ステップS510)選択部134は、ステップS303で取得された部分文字列の中で、i番目の部分文字列が存在するか否かを判断する。i番目の部分文字列が存在する場合はステップS511に行き、i番目の部分文字列が存在しない場合は上位処理にリターンする。
(ステップS511)選択手段1342は、カウンタkに1を代入する。
(ステップS512)選択手段1342は、条件格納部112に、k番目の選択条件が存在するか否かを判断する。k番目の選択条件が存在する場合はステップS513に行き、k番目の選択条件が存在しない場合はステップS517に行く。
(ステップS513)選択手段1342は、条件格納部112から、k番目の選択条件を取得する。
(ステップS514)選択手段1342は、取得されている発話属性値およびユーザ属性値の中から1以上の属性値を用いて、k番目の選択条件の判断のために使用する1以上の情報を取得する。
(ステップS515)選択手段1342は、ステップS514で取得した1以上の情報を用いて、k番目の選択条件に合致するか否かを判断し、判断結果をk番目の選択条件に対応付けて、図示しないバッファに一時蓄積する。
(ステップS516)選択部134は、カウンタkを1、インクリメントする。ステップS512に戻る。
(ステップS517)選択手段1342は、ステップS515で蓄積された1以上の判断結果を用いて、i番目の部分文字列を選択するか否かを判断する。i番目の部分文字列を選択する場合はステップS518に行き、i番目の部分文字列を選択しない場合はステップS519に行く。
(ステップS518)選択手段1342は、i番目の部分文字列を識別する部分識別子を図示しないバッファに蓄積する。なお、部分識別子とは、部分文字列を識別する情報である。部分識別子は、例えば、IDである。
(ステップS519)選択部134は、カウンタiを1、インクリメントする。ステップS510に戻る。
次に、ステップS305の要約処理の例について、図6のフローチャートを用いて説明する。
(ステップS601)要約部135は、カウンタiに1を代入する。
(ステップS602)要約部135は、要約対象のi番目の部分の部分識別子が存在するか否かを判断する。i番目の部分の部分識別子が存在する場合はステップS603に行き、i番目の部分の部分識別子が存在しない場合は上位処理にリターンする。
(ステップS603)要約部135は、要約対象のi番目の部分の部分識別子と対になる部分文字列を取得する。
(ステップS604)要約部135は、カウンタjに1を代入する。
(ステップS605)要約部135は、j番目の種類の要約を取得するか否かを判断する。j番目の種類の要約を取得する場合はステップS606に行き、j番目の種類の要約を取得しない場合はステップS608に行く。
(ステップS606)要約部135は、元文字列を用いて、j番目の種類の要約文字列を取得する。なお、元文字列とは、要約文字列を取得する元になる文字列である。元文字列は、ステップS603で取得したi番目の部分文字列、または(i-1)番目以前に取得した要約文字列である。
要約部135は、例えば、元文字列を、図示しない要約サーバに送信し、当該要約サーバから要約文字列を受信する。要約部135は、例えば、元文字列に対して、要約のための処理を行い、要約文字列を取得する。
(ステップS607)要約部135は、カウンタjを1、インクリメントする。ステップS605に戻る。
(ステップS608)要約部135は、カウンタiを1、インクリメントする。ステップS602に戻る。
次に、ステップS6306の重要度取得処理の例について、図7のフローチャートを用いて説明する。
(ステップS701)重要度取得部133は、カウンタiに1を代入する。
(ステップS702)重要度取得部133は、重要度を取得するi番目の部分の部分識別子が存在するか否かを判断する。i番目の部分の部分識別子が存在する場合はステップS703に行き、i番目の部分の部分識別子が存在しない場合は上位処理にリターンする。
(ステップS703)重要度取得部133は、i番目の部分の部分識別子に対応する1以上の属性値であり、重要度を取得する際に使用する1以上の属性値を取得する。なお、1以上の属性値は、例えば、部分文字列の長さを含む。1以上の属性値は、例えば、部分音声の音量の平均値を含む。
(ステップS704)重要度取得部133は、ステップS703で取得した1以上の属性値を用いて、重要度を取得し、当該重要度をi番目の部分の部分識別子に対応付けて蓄積する。
(ステップS705)重要度取得部133は、カウンタiを1、インクリメントする。ステップS702に戻る。
次に、ステップS307の画面構成処理の例について、図8のフローチャートを用いて説明する。
(ステップS801)処理部13は、映像と音声情報とを取得し、画面の雛形情報に配置する。なお、画面の雛形情報は、格納部11に格納されている。
(ステップS802)処理部13は、カウンタiに1を代入する。
(ステップS803)処理部13は、会話の参加者のユーザのユーザ識別子の中で、i番目のユーザ識別子が存在するか否かを判断する。i番目のユーザ識別子が存在する場合はステップS804に行き、i番目のユーザ識別子が存在しない場合はステップS809に行く。
(ステップS804)処理部13は、i番目のユーザ識別子と対になるユーザ情報を取得する。なお、ユーザ情報は、主催者情報または参加者情報である。ユーザ情報は、例えば、ユーザの氏名を含む。
(ステップS805)処理部13は、i番目のユーザ識別子と対になる1以上のユーザ属性値を取得する。処理部13は、ユーザ情報、および1以上のユーザ属性値を画面の雛形情報に配置する。なお、1以上のユーザ属性値は、例えば、ユーザの発話の比率、ユーザの音声特徴量(例えば、発話の速度)である。
(ステップS806)処理部13は、i番目のユーザ識別子と対になる1以上の各部分音声の時間情報を取得する。時間情報とは、部分音声の開始時および終了時を特定する情報である。
(ステップS807)処理部13は、ステップS806で取得した1以上の各部分音声の時間情報を用いて、i番目のユーザ識別子に対応する推移UIを構成し、当該推移UIを画面の雛形情報に配置する。
(ステップS808)処理部13は、カウンタiを1、インクリメントする。ステップS803に行く。
(ステップS809)処理部13は、カウンタjに1を代入する。
(ステップS810)処理部13は、j番目の要約対象の部分文字列の部分識別子が存在するか否かを判断する。j番目の要約対象の部分識別子が存在する場合はステップS811に行き、j番目の要約対象の部分識別子が存在しない場合はステップS813に行く。
(ステップS811)処理部13は、j番目の要約対象の部分文字列の1または2種類以上の要約文字列を取得し、画面の雛形情報に配置する。
(ステップS812)処理部13は、カウンタjを1、インクリメントする。ステップS810に行く。
(ステップS813)処理部13は、カウンタkに1を代入する。
(ステップS814)処理部13は、k番目のトピックが存在するか否かを判断する。k番目のトピックが存在する場合はステップS815に行き、k番目のトピックが存在しない場合は上位処理にリターンする。
(ステップS815)処理部13は、k番目のトピックに対する統計処理を行い、統計処理結果を取得する。統計処理結果は、例えば、k番目のトピックの会話の割合い、k番目のトピックの会話の時間の長さである。
(ステップS816)処理部13は、カウンタkを1、インクリメントする。ステップS814に行く。
次に、ステップS314の再生処理の例について、図9のフローチャートを用いて説明する。
(ステップS901)処理部13は、カレント情報を取得する。
(ステップS902)処理部13は、カレント情報に対応する箇所の映像と音声情報とを取得する。
(ステップS903)処理部13は、ステップS902で取得した箇所の映像と音声情報とを出力する。
(ステップS904)指示受付部121は、指示を受け付けたか否かを判断する。指示を受け付けた場合はステップS905に行き、指示を受け付けなかった場合はステップS907に行く。
(ステップS905)処理部13は、ステップS904で受け付けられた指示が終了指示であるか否かを判断する。終了指示である場合は上位処理にリターンし、終了指示でない場合はステップS906行く。
(ステップS906)処理部13は、指示に応じた処理を行う。ステップS902に戻る。指示に応じた処理は、例えば、カレント情報を変更する処理である。
次に、端末装置2の動作例について、図10のフローチャートを用いて説明する。
(ステップS1001)端末受付部22は、出力指示を受け付けたか否かを判断する。出力指示を受け付けた場合はステップS1002に行き、出力指示を受け付けなかった場合はステップS1006に行く。
(ステップS1002)端末処理部23は、受け付けられた出力指示に応じて、送信する出力指示を構成する。端末送信部24は、当該出力指示を会話要約装置1に送信する。
(ステップS1003)端末受信部25は、画面情報を受信したか否かを判断する。画面情報を受信した場合はステップS1004に行き、画面情報を受信しなかった場合はステップS1003に行く。
(ステップS1004)端末処理部23は、受信された画面情報を用いて、画面を構成する。
(ステップS1005)端末出力部26は、ステップS1004で構成された画面を出力する。ステップS1001に戻る。
(ステップS1006)端末受付部22は、要約指示を受け付けたか否かを判断する。出力指示を受け付けた場合はステップS1007に行き、要約指示を受け付けなかった場合はステップS1009に行く。
(ステップS1007)端末処理部23は、要約指示に対応する要約文字列の箇所であり、要約文字列と対になる箇所である要約箇所を取得する。端末出力部26は、要約文字列の元になる部分文字列に対応する箇所であり、推移UIの中の特定の箇所である要約箇所を明示する出力を行う。端末出力部26は、例えば、当該要約箇所を明示するバーを出力する。
(ステップS1008)端末処理部23は、カレント情報を要約箇所に更新する。ステップS1001に戻る。
(ステップS1009)端末受付部22は、再生指示を受け付けたか否かを判断する。再生指示を受け付けた場合はステップS1010に行き、再生指示を受け付けなかった場合はステップS1001に戻る。
(ステップS1010)端末処理部23は、再生処理を行う。再生処理は、図9で説明した処理と同様の処理である。
なお、図10のフローチャートにおいて、要約指示と再生指示とを会話要約装置1に送信して、当該指示に応じた情報を会話要約装置1から受信し、出力しても良い。
また、図10のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
以下、本実施の形態における情報システムAの具体的な動作例について説明する。
会話要約装置1の条件格納部112には、図11に示す条件管理表が格納されている。条件管理表とは、1または2以上の選択条件を管理する表である。条件管理表(図11)は、「ID」「除外条件」「条件種類」を有する1以上のレコードを管理する。「ID」はレコードを識別する情報である。「除外条件」は、要約を作成する対象から除外するための条件である。いずれの除外条件にも合致しない部分文字列は要約の対象として選択される。従って、除外条件も選択条件の例である。「条件種類」は、除外条件の種類を特定する情報である。「条件種類」は、ユーザ条件、発話条件、または内容条件である。
条件管理表の「ID=1」の除外条件は、主催者の発話は要約の対象にならないことを示す。「ID=2」の除外条件は、発話時間が最大のユーザ(例えば、営業担当者)の発話は要約の対象にならないことを示す。「ID=3」の除外条件は、発話時間が閾値以内の短い発話は要約の対象にならないことを示す。「ID=4」の除外条件は、発話の部分文字列の中に感嘆詞が含まれる場合、当該部分文字列は要約の対象にならないことを示す。「ID=5」の除外条件は、発話の部分文字列のクラスが「あいさつクラス」であった場合、当該部分文字列は要約の対象にならないことを示す。
かかる状況において、ユーザは、出力指示を端末装置2に入力した、とする。そして、端末装置2は、出力指示を受け付け、会話要約装置1に送信する。
会話要約装置1の指示受付部121は、端末装置2から出力指示を受信する。次に、処理部13は、出力指示が特定する会話情報を会話格納部111から取得する。
次に、文字列取得部131は、会話情報が有する音声情報に対して、図4のフローチャートを用いて説明した分割処理を行い、2以上の部分文字列を取得する。
次に、選択部134は、文字列取得部131が取得した2以上の部分文字列に対して、図5のフローチャートを用いて説明した選択処理を行う。選択処理の結果、選択部134は、要約を取得する対象の1以上の部分文字列を決定する。
次に、要約部135は、図6のフローチャートを用いて説明した要約処理により、要約取得対象の1以上の各部分文字列に対する要約文字列を取得する。ここで、要約部135は、1以上の各部分文字列に対して、3種類の要約を取得する、とする。3種類の要約は、ここでは、トピック、タイトル、および要約文である。トピックは、部分文字列に対応する発話のトピックである。タイトルは、部分文字列に対応する発話のタイトルである。要約文は、部分文字列を要約した1または2以上の文である。
なお、ここでは、要約部135は、例えば、生成型の人工知能であるChatGPTに部分文字列を与え、当該部分文字列のトピックを出力するように指示し、ChatGPTから当該部分文字列のトピックを取得する。また、要約部135は、例えば、生成型の人工知能であるChatGPTに部分文字列を与え、当該部分文字列のタイトルを出力するように指示し、ChatGPTから当該部分文字列のタイトルを取得する。さらに、要約部135は、例えば、生成型の人工知能であるChatGPTに部分文字列を与え、当該部分文字列を要約するように指示し、ChatGPTから当該部分文字列の要約文を取得する。
次に、処理部13は、図8のフローチャートを用いて説明した画面の構成処理を行い、画面情報を構成する。なお、ここでは、重要度取得部133は、部分文字列に対応する重要度を取得しておらず、画面情報は重要度を含まない、とする。
次に、出力部14は、構成された画面情報を端末装置2に送信する。
次に、端末装置2の端末受信部25は、画面情報を受信する。次に、端末処理部23は、受信された画面情報を用いて、画面を構成する。次に端末出力部26は、構成された画面を出力する。かかる出力のイメージ例は、図12である。
図12の1201は、会議の映像を出力するウィンドウである。1202は、部分文字列のタイトルである。1203は、部分文字列の要約文である。1204は、一ユーザに対して構成された推移UIである。ここでの推移UIは、会議の全体の中において、当該ユーザが発話していた区間がバーで表示されている(1205)。1206は、3つの各トピックに対する統計処理結果であり、各トピックの発話が行われていた総時間、および割合いである。
次に、ユーザは、図12において出力されている複数の要約のうち、一の要約(1207)を指示した、とする。
すると、端末装置2の端末受付部22は、要約指示を受け付ける。次に、端末処理部23は、要約指示に対応する要約文字列の箇所であり、要約文字列と対になる箇所である要約箇所を取得する。端末出力部26は、要約文字列の元になる部分文字列に対応する箇所であり、推移UIの中の特定の箇所である要約箇所を明示する出力を行う。端末出力部26は、例えば、当該要約箇所を明示するバー(1208)を出力する。なお、要約箇所は、ここでは、要約に対応する部分文字列と対になる開始時(05:06)である、とする。そして、端末処理部23は、カレント情報を要約箇所(05:06)に更新する。
次に、ユーザは、図12の画面に対して、再生ボタン1209を指示した、とする。すると、端末受付部22は、再生指示を受け付ける。
そして、端末処理部23は、カレント情報(05:06)が示す映像の箇所から、映像と音声情報とを再生する。
以上、本実施の形態によれば、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。
また、本実施の形態によれば、要約が必要なユーザの発話に対して、要約を得ることができる。
また、本実施の形態によれば、要約が必要な発話に対して、要約を得ることができる。
また、本実施の形態によれば、要約が不要な品詞に対応する発話に対して、要約を作成しないために、ユーザは必要な要約を得ることができる。
さらに、本実施の形態によれば、必要な2以上の種類の要約を得ることができる。
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における会話要約装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択部と、前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、前記要約部が取得した前記1以上の要約文字列を出力する要約出力部として機能させるためのプログラムである。
また、図13は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の会話要約装置1等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図13は、このコンピュータシステム300の概観図であり、図14は、システム300のブロック図である。
図13において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
図14において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の会話要約装置1等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の会話要約装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる会話要約装置1は、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できるという効果を有し、会話の要約を適切に行うサーバ等として有用である。
A 情報システム
1 会話要約装置
2 端末装置
11 格納部
12 受付部
13 処理部
14 出力部
21 端末格納部
22 端末受付部
23 端末処理部
24 端末送信部
25 端末受信部
26 端末出力部
111 会話格納部
112 条件格納部
121 指示受付部
131 文字列取得部
132 ユーザ決定部
133 重要度取得部
134 選択部
135 要約部
141 音声出力部
142 映像出力部
143 UI出力部
144 要約出力部
145 重要度出力部
146 箇所出力部
1341 属性値取得手段
1342 選択手段

Claims (13)

  1. コンピュータを、
    複数のユーザ間の会話の音声情報の中の一部の音声情報であ1以上の各部分音声に対応する部分文字列に対して、当該部分文字列に対する発話を行ったユーザを決定するユーザ決定部と、
    前記複数の各ユーザごとに、当該ユーザに対応する発話の長さに関する長さ情報を取得し、前記長さ情報の合計が最も長いユーザに対する部分文字列を除いて、1以上の部分文字列を取得する選択部と、
    前記選択部が取得した前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
    前記要約部が取得した前記1以上の要約文字列を出力する要約出力部として機能させるためのプログラム。
  2. コンピュータを、
    複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択部と、
    前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
    前記要約部が取得した前記1以上の要約文字列を出力する要約出力部として機能させるためのプログラムであって、
    前記選択条件は、発話の長さに関する長さ情報に関する長さ条件を含み、
    前記選択部は、
    前記複数の各ユーザの発話ごとに、当該発話の長さ情報を取得し、当該長さ情報が、前記長さ条件を満たす長い発話であることを示す情報に対応する1以上の部分文字列を取得すものとして、前記コンピュータを機能させるためのプログラム。
  3. コンピュータを、
    複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択部と、
    前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
    前記要約部が取得した前記1以上の要約文字列を出力する要約出力部として機能させるためのプログラムであって、
    前記選択部は、
    前記複数の各ユーザの発話ごとに、当該発話の属性値を取得し、当該発話の属性値が、前記選択条件に合致する発話に対する1以上の部分文字列を取得し、
    前記発話の属性値は、品詞を含み
    前記選択条件は、特定の品詞に対応する部分を含まないことであるプログラム。
  4. 前記要約部は、
    前記1以上の各部分文字列ごとに、2種類以上の要約文字列を取得し、
    前記要約出力部は、
    前記1以上の各部分文字列ごとに、2種類以上の前記要約文字列を出力するものとして、前記コンピュータを機能させるための請求項1から請求項いずれか一項に記載のプログラム。
  5. 前記コンピュータを、
    前記部分文字列または当該部分文字列に対応する要約文字列の重要度を取得する重要度取得部と、
    前記重要度を出力する重要度出力部としてさらに機能させるための請求項1から請求項いずれか一項に記載のプログラム。
  6. 前記コンピュータを、
    前記会話における時間の推移を特定するユーザインターフェースである推移UIを出力するUI出力部と、
    前記要約文字列の元になる部分文字列に対応する箇所であり、前記推移UIの中の特定の箇所である要約箇所を明示する出力を行う箇所出力部としてさらに機能させるための請求項1から請求項いずれか一項に記載のプログラム。
  7. 前記会話における映像と音声情報とを含む会話情報が格納される会話格納部にアクセス可能な前記コンピュータを、
    前記要約出力部が出力した1以上の要約文字列の中の一の要約文字列に対する指示である要約指示を受け付ける指示受付部と、
    前記一の要約文字列に対応する要約箇所に対応する前記映像を出力する映像出力部としてさらに機能させるための請求項1から請求項いずれか一項に記載のプログラム。
  8. 複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であ1以上の各部分音声に対応する部分文字列に対して、当該部分文字列に対する発話を行ったユーザを決定するユーザ決定部と、
    前記複数の各ユーザごとに、当該ユーザに対応する発話の長さに関する長さ情報を取得し、前記長さ情報の合計が最も長いユーザに対する部分文字列を除いて、1以上の部分文字列を取得する選択部と、
    前記選択部が取得した前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
    前記要約部が取得した前記1以上の要約文字列を出力する要約出力部とを具備する会話要約装置。
  9. 複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択部と、
    前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
    前記要約部が取得した前記1以上の要約文字列を出力する要約出力部とを具備し、
    前記選択条件は、発話の長さに関する長さ情報に関する長さ条件を含み、
    前記選択部は、
    前記複数の各ユーザの発話ごとに、当該発話の長さ情報を取得し、当該長さ情報が、前記長さ条件を満たす長い発話であることを示す情報に対応する1以上の部分文字列を取得する、会話要約装置。
  10. 複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択部と、
    前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
    前記要約部が取得した前記1以上の要約文字列を出力する要約出力部として機能させるためのプログラムであって、
    前記選択部は、
    前記複数の各ユーザの発話ごとに、当該発話の属性値を取得し、当該発話の属性値が、前記選択条件に合致する発話に対する1以上の部分文字列を取得し、
    前記発話の属性値は、品詞を含み
    前記選択条件は、特定の品詞に対応する部分を含まないことである、会話要約装置。
  11. ユーザ決定部と、選択部と、要約部と、要約出力部とにより実現される会話要約方法であって、
    前記ユーザ決定部が、複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声に対応する部分文字列に対して、当該部分文字列に対する発話を行ったユーザを決定するユーザ決定ステップと、
    前記選択部が、前記複数の各ユーザごとに、当該ユーザに対応する発話の長さに関する長さ情報を取得し、前記長さ情報の合計が最も長いユーザに対する部分文字列を除いて、1以上の部分文字列を取得する選択ステップと、
    前記要約部が、前記選択ステップで取得された前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約ステップと、
    前記要約出力部が、前記要約ステップで取得された前記1以上の要約文字列を出力する要約出力ステップとを具備する会話要約方法。
  12. 選択部と、要約部と、要約出力部とにより実現される会話要約方法であって、
    前記選択部が、複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択ステップと、
    前記要約部が、前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約ステップと、
    前記要約出力部が、前記要約ステップで取得された前記1以上の要約文字列を出力する要約出力ステップとを具備し、
    前記選択条件は、発話の長さに関する長さ情報に関する長さ条件を含み、
    前記選択ステップにおいて、
    前記複数の各ユーザの発話ごとに、当該発話の長さ情報を取得し、当該長さ情報が、前記長さ条件を満たす長い発話であることを示す情報に対応する1以上の部分文字列を取得する、会話要約方法。
  13. 選択部と、要約部と、要約出力部とにより実現される会話要約方法であって、
    前記選択部が、複数のユーザ間の会話の音声情報の中の一部の音声情報である1以上の各部分音声であり、選択条件に合致する1以上の各部分音声に対応する部分文字列を取得する選択ステップと、
    前記要約部が、前記1以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約ステップと、
    前記要約出力部が、前記要約ステップで取得された前記1以上の要約文字列を出力する要約出力ステップとを具備し、
    前記選択ステップにおいて、
    前記複数の各ユーザの発話ごとに、当該発話の属性値を取得し、当該発話の属性値が、前記選択条件に合致する発話に対する1以上の部分文字列を取得し、
    前記発話の属性値は、品詞を含み
    前記選択条件は、特定の品詞に対応する部分を含まないことである、会話要約方法。
JP2023069090A 2023-04-20 2023-04-20 プログラム、会話要約装置、および会話要約方法 Active JP7344612B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023069090A JP7344612B1 (ja) 2023-04-20 2023-04-20 プログラム、会話要約装置、および会話要約方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023069090A JP7344612B1 (ja) 2023-04-20 2023-04-20 プログラム、会話要約装置、および会話要約方法

Publications (1)

Publication Number Publication Date
JP7344612B1 true JP7344612B1 (ja) 2023-09-14

Family

ID=87934894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023069090A Active JP7344612B1 (ja) 2023-04-20 2023-04-20 プログラム、会話要約装置、および会話要約方法

Country Status (1)

Country Link
JP (1) JP7344612B1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284793A (ja) * 1999-03-31 2000-10-13 Sharp Corp 音声要約装置及び音声要約プログラムを記録した記録媒体
JP2011102862A (ja) * 2009-11-10 2011-05-26 Advanced Media Inc 音声認識結果管理装置および音声認識結果表示方法
JP2019139572A (ja) * 2018-02-13 2019-08-22 キヤノン株式会社 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2019152758A (ja) * 2018-03-02 2019-09-12 キヤノン株式会社 会議システム、会議システムの制御方法、並びにプログラム
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム
US20200242151A1 (en) * 2019-01-29 2020-07-30 Audiocodes Ltd. Device, System, and Method for Automatic Generation of Presentations
JP2023051211A (ja) * 2021-09-30 2023-04-11 トッパン・フォームズ株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2023076003A (ja) * 2021-11-22 2023-06-01 株式会社RevComm プログラム、情報処理システム及び情報処理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000284793A (ja) * 1999-03-31 2000-10-13 Sharp Corp 音声要約装置及び音声要約プログラムを記録した記録媒体
JP2011102862A (ja) * 2009-11-10 2011-05-26 Advanced Media Inc 音声認識結果管理装置および音声認識結果表示方法
JP2019139572A (ja) * 2018-02-13 2019-08-22 キヤノン株式会社 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2019152758A (ja) * 2018-03-02 2019-09-12 キヤノン株式会社 会議システム、会議システムの制御方法、並びにプログラム
JP2020071675A (ja) * 2018-10-31 2020-05-07 株式会社eVOICE 対話要約生成装置、対話要約生成方法およびプログラム
US20200242151A1 (en) * 2019-01-29 2020-07-30 Audiocodes Ltd. Device, System, and Method for Automatic Generation of Presentations
JP2023051211A (ja) * 2021-09-30 2023-04-11 トッパン・フォームズ株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2023076003A (ja) * 2021-11-22 2023-06-01 株式会社RevComm プログラム、情報処理システム及び情報処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
有木康雄,音声を中心とするマルチメディアのメタデータ化,第1回音声ドキュメント処理ワークショップ講演論文集,豊橋技術科学大学メディア科学リサーチセンター,2007年02月,pp.41-46
有木康雄: "音声を中心とするマルチメディアのメタデータ化", 第1回音声ドキュメント処理ワークショップ講演論文集, JPN6023029065, February 2007 (2007-02-01), pages 41 - 46, ISSN: 0005109504 *

Similar Documents

Publication Publication Date Title
JP4271224B2 (ja) 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
CN115713949A (zh) 设备之间封装和同步状态的相互作用
US20180013718A1 (en) Account adding method, terminal, server, and computer storage medium
WO2020189441A1 (ja) 情報処理装置、情報処理方法およびプログラム
TWI807428B (zh) 一同管理與語音檔有關的文本轉換記錄和備忘錄的方法、系統及電腦可讀記錄介質
JP2019101754A (ja) 要約装置及びその制御方法、要約システム、プログラム
WO2022215361A1 (ja) 情報処理装置及び情報処理方法
JP4250938B2 (ja) コミュニケーション支援方法およびコミュニケーションサーバ
JP7417272B2 (ja) 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法
JP2015099289A (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
US8965760B2 (en) Communication device, method, non-transitory computer readable medium, and system of a remote conference
WO2021153618A1 (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2014109998A (ja) 対話装置及びコンピュータ対話方法
WO2020188622A1 (ja) 編集支援プログラム、編集支援方法、及び編集支援装置
JP5376232B2 (ja) コミュニケーションプレイバックシステム、コミュニケーションプレイバック方法、プログラム
JP7445343B1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
KR102509106B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
WO2024058005A1 (ja) 処理システム、処理方法およびプログラム
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US20230326454A1 (en) Dynamic chapter generation for a communication session
JP7513288B2 (ja) 音声処理装置、コーパスの生産方法、およびプログラム
US20240020463A1 (en) Text based contextual audio annotation
WO2023053940A1 (ja) 情報処理システム、プログラム及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230501

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230822

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230828

R150 Certificate of patent or registration of utility model

Ref document number: 7344612

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350