JP7344612B1

JP7344612B1 - プログラム、会話要約装置、および会話要約方法

Info

Publication number: JP7344612B1
Application number: JP2023069090A
Authority: JP
Inventors: 真司高信
Original assignee: Amptalk
Current assignee: Amptalk
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-09-14
Anticipated expiration: 2043-04-20

Abstract

【課題】従来、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力することができなかった。【解決手段】複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択部１３４と、１以上の各部分文字列ごとに、部分文字列を要約した文字列である要約文字列を取得する要約部１３５と、要約部１３５が取得した１以上の要約文字列を出力する要約出力部１４４とを具備する会話要約装置１により、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。【選択図】図２

Description

本発明は、会話の中の一部の発言を要約し、出力する会話要約装置等に関するものである。

従来、機械学習を用いて、文書の要約を行う機械学習プログラムがあった（特許文献１参照）。

特開２０２２－１５２３６７号公報

しかしながら、従来技術においては、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できなかった。

本第一の発明の会話要約装置は、複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択部と、１以上の各部分文字列ごとに、部分文字列を要約した文字列である要約文字列を取得する要約部と、要約部が取得した１以上の要約文字列を出力する要約出力部とを具備する会話要約装置である。

かかる構成により、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。

また、本第二の発明の会話要約装置は、第一の発明に対して、選択条件は、発話したユーザに関する条件であるユーザ条件を含み、１以上の各部分文字列に対して、部分文字列に対する発話を行ったユーザを決定するユーザ決定部をさらに具備し、選択部は、ユーザ決定部が決定したユーザのうち、選択条件に合致するユーザに対する１以上の部分文字列を取得する会話要約装置である。

かかる構成により、要約が必要なユーザの発話に対して、要約を得ることができる。

また、本第三の発明の会話要約装置は、第二の発明に対して、選択部は、複数の各ユーザごとに、ユーザに対応する発話の属性値を取得する属性値取得手段と、複数の各ユーザごとの属性値が、選択条件に合致する発話に対する１以上の部分文字列を取得する選択手段とを具備する会話要約装置である。

また、本第四の発明の会話要約装置は、第三の発明に対して、属性値取得手段が取得する属性値は、発話の長さに関する長さ情報であり、選択条件は、所定区間におけるユーザごとの長さ情報の合計が最も長いユーザに対する部分文字列を除くことである会話要約装置である。

また、本第五の発明の会話要約装置は、第一の発明に対して、選択条件は、発話の属性値に関する条件である発話条件を含み、選択部は、複数の各ユーザの発話ごとに、発話の属性値を取得する属性値取得手段と、発話の属性値が、選択条件に合致する発話に対する１以上の部分文字列を取得する選択手段とを具備する会話要約装置である。

かかる構成により、要約が必要な発話に対して、要約を得ることができる。

また、本第六の発明の会話要約装置は、＜従属関係なし＞の発明に対して、発話の属性値は、発話の長さに関する長さ情報であり、選択条件は、長さ条件を満たす長い発話であることを示す長さ情報に対応する部分文字列を選択することである請求項５記載載の会話要約装置である。

また、本第七の発明の会話要約装置は、＜従属関係なし＞の発明に対して、発話の属性値は、品詞を含み選択条件は、特定の品詞に対応する部分を含まない部分文字列を選択することである請求項５記載載の会話要約装置である。

かかる構成により、要約が不要な品詞に対応する発話に対して、要約を作成しないために、ユーザは必要な要約を得ることができる。

また、本第八の発明の会話要約装置は、第一の発明に対して、会話情報には、タイトル情報が対応付いており、選択条件は、タイトル情報に対して、所定の関係がある部分文字列であることである会話要約装置である。

また、本第九の発明の会話要約装置は、第一から第八いずれか１つの発明に対して、要約部は、１以上の各部分文字列ごとに、２種類以上の要約文字列を取得し、要約出力部は、１以上の各部分文字列ごとに、２種類以上の要約文字列を出力する会話要約装置である。

かかる構成により、必要な２以上の種類の要約を得ることができる。

また、本第十の発明の会話要約装置は、第一から第九いずれか１つの発明に対して、部分文字列または部分文字列に対応する要約文字列の重要度を取得する重要度取得部と、重要度を出力する重要度出力部とをさらに具備する会話要約装置である。

かかる構成により、発話に対する重要度を出力できる。

また、本第十一の発明の会話要約装置は、第一から第十いずれか１つの発明に対して、会話における時間の推移を特定するユーザインターフェースである推移ＵＩを出力するＵＩ出力部と、要約文字列の元になる部分文字列に対応する箇所であり、推移ＵＩの中の特定の箇所である要約箇所を明示する出力を行う箇所出力部とをさらに具備する会話要約装置である。

かかる構成により、会話の全体の中で、要約に対応する箇所を明示できる。

また、本第十二の発明の会話要約装置は、第一から第十一いずれか１つの発明に対して、会話における映像と音声情報とを含む会話情報が格納される会話格納部と、要約出力部が出力した１以上の要約文字列の中の一の要約文字列に対する指示である要約指示を受け付ける指示受付部と、一の要約文字列に対応する要約箇所に対応する映像を出力する映像出力部とをさらに具備する会話要約装置である。

かかる構成により、要約に対応する映像を容易に出力できる。

本発明による会話要約装置によれば、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。

実施の形態１における情報システムＡの概念図同情報システムＡのブロック図同会話要約装置１の動作例について説明するフローチャート同音声分割処理の例について説明するフローチャート同選択処理の例について説明するフローチャート同要約処理の例について説明するフローチャート同重要度取得処理の例について説明するフローチャート同画面構成処理の例について説明するフローチャート同再生処理の例について説明するフローチャート同端末装置２の動作例について説明するフローチャート同条件管理表を示す図同出力イメージ図同コンピュータシステムの概観図同コンピュータシステムのブロック図

以下、会話要約装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、会話情報を取得し、当該会話情報における一部の発言を要約し、出力する会話要約装置について説明する。

また、本実施の形態において、会話の中で、１以上の各発話に対する重要度を取得し、出力する会話要約装置について説明する。

また、本実施の形態において、会話における時間の推移を特定するユーザインターフェースである推移ＵＩを出力し、要約に対応する箇所であり、当該推移ＵＩの中の箇所を明示する会話要約装置について説明する。

さらに、本実施の形態において、要約と会議の映像の特定箇所とのリンク付けが行われる会話要約装置について説明する。

なお、本明細書において、情報Ｘが情報Ｙに対応付いていることは、情報Ｘから情報Ｙを取得できること、または情報Ｙから情報Ｘを取得できることであり、その対応付けの方法は問わない。情報Ｘと情報Ｙとがリンク付いていても良いし、同じバッファに存在していても良いし、情報Ｘが情報Ｙに含まれていても良いし、情報Ｙが情報Ｘに含まれている等でも良い。

図１は、本実施の形態における情報システムＡの概念図である。情報システムＡは、会話要約装置１、および１または２以上の端末装置２を備える。

会話要約装置１は、会話を要約し、要約文字列を取得し、出力する装置である。会話要約装置１は、例えば、クラウドサーバ、ＡＳＰサーバであるが、その種類は問わない。会話要約装置１が端末である場合、情報システムＡに端末装置２は不要である、または会話要約装置１が端末装置２を兼ねる、と考えて良い。

端末装置２は、ユーザが使用する端末である。ユーザは、例えば、会議の参加者、会議の参加者と同じ部署の者である。端末装置２には、要約文字列等が出力される。端末装置２は、例えば、いわゆるパソコン、スマートフォン、タブレット端末であるが、その種類は問わない。

会話要約装置１と１または２以上の各端末装置２とは、インターネット等のネットワークにより通信可能である。

図２は、本実施の形態における情報システムＡのブロック図である。情報システムＡを構成する会話要約装置１は、格納部１１、受付部１２、処理部１３、および出力部１４を備える。

格納部１１は、会話格納部１１１、および条件格納部１１２を備える。受付部１２は、指示受付部１２１を備える。処理部１３は、文字列取得部１３１、ユーザ決定部１３２、重要度取得部１３３、選択部１３４、および要約部１３５を備える。選択部１３４は、属性値取得手段１３４１、および選択手段１３４２を備える。出力部１４は、音声出力部１４１、映像出力部１４２、ＵＩ出力部１４３、要約出力部１４４、重要度出力部１４５、および箇所出力部１４６を備える。

端末装置２は、端末格納部２１、端末受付部２２、端末処理部２３、端末送信部２４、端末受信部２５、および端末出力部２６を備える。

会話要約装置１を構成する格納部１１には、各種の情報が格納される。各種の情報は、例えば、後述する会話情報、後述する選択条件である。

会話格納部１１１には、１または２以上の会話情報が格納される。会話情報は、音声情報を有する。会話情報は、映像を有することは好適である。会話情報は、音声情報だけでも良い。

会話情報とは、複数のユーザ間の会話の間に取得された情報である。音声情報は、複数のユーザ間の会話の間の音声を録音された情報である。映像は、複数のユーザ間の会話の際に録画された動画である。会話は、例えば、会議における会話であるが、その内容等は問わない。会話は、ビジネスにおける会議での会話であることは好適であるが、会話の目的や内容は問わない。なお、会話は、会議と言い換えても良い場合がある。会議は、いわゆるウェブ会議であることは好適である。

会話情報には、１または２以上の会話属性値が対応付いていることは好適である。会話属性値とは、会話に関する属性値である。会話属性値は、例えば、タイトル情報、主催者情報、１以上の参加者情報、日時、時間帯である。

タイトル情報とは、会話のタイトルを特定する情報である。タイトル情報は、通常、文字列である。

主催者情報とは、主催者に関する情報である。主催者情報は、例えば、主催者識別子、１以上の主催者属性値を有する。主催者識別子とは、主催者を識別する情報である。主催者識別子は、例えば、主催者の氏名、主催者のＩＤである。主催者属性値は、例えば、主催者の所属、主催者の役職である。主催者の所属は、例えば、主催者の会社名、主催者の所属部署名である。

参加者情報とは、参加者に関する情報である。参加者情報は、例えば、参加者識別子、１以上の参加者属性値を有する。参加者識別子とは、参加者を識別する情報である。参加者識別子は、例えば、参加者の氏名、参加者のＩＤである。参加者属性値は、例えば、参加者の所属、参加者の役職である。参加者の所属は、例えば、参加者の会社名、参加者の所属部署名である。参加者とは、会話の参加者である。

日時とは、会話の開始日時、または／および終了日時である。時間帯とは、会話の時間帯を特定する情報である。

条件格納部１１２には、１または２以上の選択条件が格納される。選択条件とは、部分音声または部分文字列を選択するための条件である。選択条件は、選択しないことを判断するための除外条件でも良い。つまり、選択するための条件とは、選択しないための条件を含んでも良い。選択条件は、部分音声に関する条件でも、部分文字列に関する条件でも良い。部分音声を選択することと部分文字列を選択することである。

部分音声とは、音声情報の一部分である。部分文字列とは、部分音声を文字認識した結果の文字列、または音声情報を文字認識した結果の文字列である音声文字列の一部分である。

１以上の各選択条件は、例えば、ユーザ条件、発話条件、または内容条件である。ユーザ条件とは、発話するユーザに関する条件である。ユーザ条件は、例えば、「主催者を除く」「最も長く話しをしているユーザを除く」である。発話条件とは、発話の属性値に関する条件である。発話条件は、例えば、「長さ条件を満たす長い発話であることを示す長さ情報に対応すること」「特定の品詞の用語を含まないこと」である。内容条件とは、発話の内容に関する条件である。内容条件は、例えば、「あいさつの発話は除く」「タイトル情報との関連度が閾値以上または閾値より大きいこと」である。

長さ条件とは、発話の長さに関する条件である。長さ情報とは、発話の長さを特定する情報である。「長さ条件を満たす長い発話であることを示す長さ情報に対応すること」は、「発話の長さが閾値以上または閾値より長いこと」である。特定の品詞は、例えば、感嘆詞である。関連度とは、タイトル情報と部分文字列との関連度である。関連度は、例えば、タイトル情報が有する用語と部分文字列が有する用語の中で共通する用語の数が多いほど、大きな値となる。関連度は、例えば、タイトル情報が有する用語と部分文字列が有する用語の中で共通する用語の数をパラメータとする増加関数により算出される値である。関連度は、例えば、タイトル情報のクラスと部分文字列のクラスとが同じクラスである場合は「１」、タイトル情報のクラスと部分文字列のクラスとが同じクラスでない場合は「０」である。なお、文や文章等の文字列のクラスを決定する技術は公知技術であるので、詳細な説明は省略する。クラスは、後述するトピックでも良い。

受付部１２は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、後述する出力指示、要約指示、再生指示、会議情報、音声情報、選択条件である。

受付部１２は、例えば、図示しないウェブ会議サーバ、または端末装置２から、会議情報または音声情報を受信する。

ここでは、受け付けとは、通常、端末装置２からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念であっても良い。

各種の指示や情報の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。受付部１２は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

指示受付部１２１は、各種の指示を受け付ける。指示受付部１２１は、例えば、出力指示を受け付ける。出力指示とは、要約文字列の出力の指示である。出力指示は、会議情報と１以上の要約文字列とを含む情報を出力する指示でも良い。出力指示は、例えば、会議情報を特定する識別子を有する。指示受付部１２１は、例えば、要約指示を受け付ける。要約指示とは、要約出力部１４４が出力した１以上の要約文字列の中の一の要約文字列に対する指示である

処理部１３は、各種の処理を行う。各種の処理とは、例えば、文字列取得部１３１、ユーザ決定部１３２、重要度取得部１３３、選択部１３４、要約部１３５が行う処理である。

処理部１３は、例えば、２以上の端末装置２の間で、ウェブ会議を行う機能を遂行する。ウェブ会議を行う機能は公知技術であるので、詳細な説明を省略する。

処理部１３は、例えば、受付部１２が受け付けた情報を格納部１１に蓄積する。受付部１２が受け付けた情報は、例えば、会議情報、選択条件である。

文字列取得部１３１は、音声情報に対して音声認識処理を行った結果である会話文字列を取得する。文字列取得部１３１が音声情報に対して音声認識処理を行っても良いし、図示しない音声認識サーバに音声情報を渡し、当該音声認識サーバから会話文字列を受信しても良い。つまり、音声認識処理を行う装置またはプログラムの存在場所は問わない。

ユーザ決定部１３２は、１以上の各部分文字列に対して、部分文字列に対する発話を行ったユーザを決定する。部分文字列に対する発話を行ったユーザとは、当該部分文字列の元になった部分音声の発話を行ったユーザである。

ユーザ決定部１３２は、通常、音声情報に基づいて、部分文字列に対する発話を行ったユーザを決定することは好適である。ユーザ決定部１３２は、例えば、音声情報を分割した部分音声から１以上の音声特徴量を取得し、当該１以上の音声特徴量を用いて、当該部分音声を発話したユーザを決定する。ユーザ決定部１３２は、例えば、部分音声と対にして、ユーザ識別子を取得する。

ユーザ決定部１３２は、例えば、部分音声と対になっているユーザ識別子を取得する。かかる場合、音声情報の１以上の各部分音声には、ユーザ識別子が対応付いている。

重要度取得部１３３は、部分文字列または部分文字列に対応する要約文字列の重要度を取得する。重要度取得部１３３は、例えば、１以上の各要約文字列ごとに重要度を取得する。要約文字列ごととは、部分文字列ごとである、と考えても良い。

重要度とは、部分文字列または要約文字列の会話における重要な度合いである。部分文字列または要約文字列の会話における重要な度合いは、部分音声に対する発話の重要な度合いであるとも言える。重要度は、例えば、１から５のいずれかの数値、「Ａ」「Ｂ」「Ｃ」のうちのいずれか等である。ただし、重要度の表記は問わない。

重要度取得部１３３は、例えば、部分文字列または要約文字列の１以上の属性値を取得し、当該１以上の属性値を用いて、重要度を取得する。部分文字列または要約文字列の属性値は、その元になった部分音声の属性値でも良い。１以上の属性値は、例えば、タイトル情報との関連度、長さ情報である。

重要度取得部１３３は、例えば、タイトル情報との関連度が大きいほど、大きな値の重要度を取得する。重要度取得部１３３は、例えば、長さ情報が大きいほど、大きな値の重要度を取得する。

選択部１３４は、選択条件に合致する１以上の部分文字列を取得する。選択部１３４は、通常、２以上の部分文字列から１以上の部分文字列を選択して取得する。選択部１３４は、例えば、２以上の部分音声の中から、選択条件に合致する１以上の各部分音声を決定し、当該１以上の各部分音声に対応する部分文字列を取得する。選択部１３４は、例えば、２以上の部分文字列の中から、選択条件に合致する１以上の部分文字列を取得する。なお、部分音声は、複数のユーザ間の会話の音声情報の中の一部の音声情報である。

選択条件に合致することは、選択条件の一種である除外条件に合致しないことと同じ意味である、と考えても良い。

選択部１３４は、例えば、ユーザ決定部１３２が決定したユーザのうち、選択条件に合致するユーザに対する１以上の部分文字列を取得する。

選択部１３４は、例えば、音声情報を含む会話情報に対して音声認識処理を行った結果である会話文字列を取得する。次に、選択部１３４は、例えば、会話文字列を２以上の部分文字列に分割し、当該２以上の部分文字列の中から、選択条件に合致する１以上の部分文字列を取得する。

選択部１３４は、例えば、音声情報を取得する。次に、選択部１３４は、例えば、当該音声情報を２以上の部分音声に分割し、２以上の各部分音声の１以上の音声特徴量が択条件に合致する１以上の部分音声を決定し、当該１以上の各部分音声に対して音声認識処理を行った結果である１以上の部分文字列を取得する。

属性値取得手段１３４１は、１以上の各発話の１以上の属性値を取得する。属性値は、例えば、ユーザ属性値、または発話属性値である。

属性値取得手段１３４１は、例えば、複数の各ユーザごとに、１以上のユーザ属性値を取得する。ユーザ属性値は、例えば、当該ユーザの発話の全体の長さ、主催者であるか否かを示す情報である。

属性値取得手段１３４１は、例えば、複数の各ユーザごとに、ユーザに対応する発話の属性値である発話属性値を取得する。属性値取得手段１３４１は、例えば、複数の各ユーザの発話ごとに、発話属性値を取得する。属性値取得手段１３４１が発話属性値を取得する場合、通常、部分音声または部分文字列を用いる。発話属性値は、例えば、発話の長さに関する長さ情報、用語の品詞である。

選択手段１３４２は、例えば、複数の各ユーザごとの属性値が、選択条件に合致する発話に対する１以上の部分文字列を取得する。

選択手段１３４２は、例えば、発話の属性値が、選択条件に合致する発話に対する１以上の部分文字列を取得する。

要約部１３５は、１以上の各部分文字列ごとに、部分文字列を要約した文字列である要約文字列を取得する。要約部１３５は、通常、選択部１３４が選択した１以上の各部分文字列ごとに、要約文字列を取得する。なお、要約部１３５は、すべての部分文字列ごとに、要約文字列を取得しても良い。ただし、出力される要約文字列は、選択手段１３４２が選択した部分文字列に対応する要約文字列のみであること好適である。

要約部１３５は、図示しない要約サーバに部分文字列を渡し、当該要約サーバから当該部分文字列に対応する要約文字列を受信しても良い。

要約部１３５は、１以上の各部分文字列ごとに、２種類以上の要約文字列を取得することは好適である。なお、２種類以上の要約文字列は、通常、長さが異なる。２種類以上の要約文字列は、例えば、タイトルと文集合である。２種類以上の要約文字列は、例えば、トピックとタイトルと文集合である。トピックとは、発話の話題を特定する情報である。タイトルとは、発話の見出しである。文集合とは、文章を要約して、取得された１以上の文の集合である。

要約部１３５は、例えば、生成型の人工知能であるＣｈａｔＧＰＴに部分文字列を与え、当該部分文字列のトピックを出力するように指示し、ＣｈａｔＧＰＴから当該部分文字列のトピックを取得する。また、要約部１３５は、例えば、生成型の人工知能であるＣｈａｔＧＰＴに部分文字列を与え、当該部分文字列のタイトルを出力するように指示し、ＣｈａｔＧＰＴから当該部分文字列のタイトルを取得する。さらに、要約部１３５は、例えば、生成型の人工知能であるＣｈａｔＧＰＴに部分文字列を与え、当該部分文字列を要約するように指示し、ＣｈａｔＧＰＴから当該部分文字列の要約文を取得する。

要約部１３５は、例えば、書籍「テキスト自動要約 (知の科学)」（奥村学他，オーム社）に記載されている自動要約の技術を用いて、部分文字列から要約文字列を取得する。なお、要約部１３５が部分文字列から要約文字列を取得するアルゴリズムは問わない。

出力部１４は、各種の情報を出力する。各種の情報は、例えば、要約文字列、部分文字列、音声情報、映像、重要度、推移ＵＩである。

ここで出力とは、通常、端末装置２への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念であっても良い。

音声出力部１４１は、音声情報を出力する。音声出力部１４１は、１または２以上の部分音声を出力する。

映像出力部１４２は、映像を出力する。映像出力部１４２は、例えば、要約指示に対応する一の要約文字列に対応する要約箇所に対応する映像を出力する。

ＵＩ出力部１４３は、会話における時間の推移を特定するユーザインターフェースである推移ＵＩを出力する。推移ＵＩは、例えば、バー状であるが、形状等は問わない。

要約出力部１４４は、要約部１３５が取得した１以上の要約文字列を出力する。

要約出力部１４４は、１以上の各部分文字列ごとに、２種類以上の要約文字列を出力することは好適である。

重要度出力部１４５は、重要度を出力する。重要度出力部１４５は、１以上の各要約文字列ごとに、重要度を出力することは好適である。

箇所出力部１４６は、要約文字列の元になる部分文字列に対応する箇所であり、推移ＵＩの中の特定の箇所である要約箇所を明示する出力を行う。要約箇所を明示する出力の態様は問わない。要約箇所を明示する出力のトリガーは問わない。要約箇所を明示する出力は、例えば、要約の指示に基づく。

端末装置２を構成する端末格納部２１には、各種の情報が格納される。各種の情報とは、例えば、ユーザ識別子である。なお、端末格納部２１のユーザ識別子は、ユーザにより入力され、一時的に格納されている情報でも良い。

端末受付部２２は、各種の情報や指示等を受け付ける。各種の情報や指示等とは、例えば、出力指示、要約指示、映像、音声情報である。

各種の情報や指示の入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの、カメラ、マイク等、何でも良い。

端末処理部２３は、各種の処理を行う。各種の処理は、例えば、受け付けられた情報や指示等を、送信する構造の情報や指示等にする処理である。各種の処理は、例えば、受信された情報を出力する構造の情報にする処理である。

端末送信部２４は、各種の情報や指示等を会話要約装置１に送信する。各種の情報や指示等は、例えば、映像、音声情報、要約指示、ユーザ情報である。

端末受信部２５は、各種の情報を会話要約装置１から受信する。各種の情報は、例えば、映像、音声情報、要約文字列、部分文字列、重要度、推移ＵＩである。

端末出力部２６は、各種の情報を出力する。各種の情報は、例えば、映像、音声情報、要約文字列、部分文字列、重要度、推移ＵＩである。

格納部１１、会話格納部１１１、条件格納部１１２、および端末格納部２１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

格納部１１等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部１１等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部１１等で記憶されるようになってもよい。

受付部１２、および指示受付部１２１は、無線または有線の通信手段で実現されることが好適であるが、放送を受信する手段、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現されても良い。

処理部１３、文字列取得部１３１、ユーザ決定部１３２、重要度取得部１３３、選択部１３４、要約部１３５、属性値取得手段１３４１、選択手段１３４２、および端末処理部２３は、通常、プロセッサやメモリ等から実現され得る。処理部１３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。なお、プロセッサは、ＣＰＵ、ＭＰＵ、ＧＰＵ等であり、その種類は問わない。

端末受付部２２は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア、カメラ、マイク等で実現され得る。

端末送信部２４は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。

端末受信部２５は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。

端末出力部２６は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。端末出力部２６は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、会話要約装置１の動作例について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）指示受付部１２１は、出力指示を受け付けたか否かを判断する。出力指示を受け付けた場合はステップＳ３０２に行き、出力指示を受け付けなかった場合はステップＳ３０９に行く。ここで、指示受付部１２１は、例えば、出力指示を端末装置２から受信する。

（ステップＳ３０２）処理部１３は、出力指示が特定する会話情報を会話格納部１１１から取得する。

（ステップＳ３０３）文字列取得部１３１は、ステップＳ３０２で取得された会話情報が有する音声情報に対して分割処理を行う。かかる音声分割処理の例について、図４のフローチャートを用いて説明する。なお、音声分割処理とは、音声情報を２以上の部分音声に区切る処理である。

（ステップＳ３０４）選択部１３４は、選択処理を行う。選択処理の例について、図５のフローチャートを用いて説明する。なお、選択処理とは、２以上の部分音声に対して、要約文字列を取得する対象を選択する処理である。２以上の部分音声に対して選択することは、２以上の部分文字列に対して選択することと同じ意味である。

（ステップＳ３０５）要約部１３５は、要約文字列を取得する。かかる要約処理の例について、図６のフローチャートを用いて説明する。

（ステップＳ３０６）重要度取得部１３３は、部分文字列に対応する重要度を取得する。重要度取得処理の例について、図７のフローチャートを用いて説明する。

（ステップＳ３０７）処理部１３は、出力する画面の構成処理を行う。かかる画面構成処理の例について、図８のフローチャートを用いて説明する。

（ステップＳ３０８）出力部１４は、ステップＳ３０７で構成された画面情報を出力する。ステップＳ３０１に戻る。ここで、出力部１４は、例えば、端末装置２に画面情報を送信する。

（ステップＳ３０９）指示受付部１２１は、要約文字列に対する要約指示を受け付けたか否かを判断する。要約指示を受け付けた場合はステップＳ３１０に行き、要約指示を受け付けなかった場合はステップＳ３１３に行く。ここで、指示受付部１２１は、要約指示を端末装置２から受信する。

（ステップＳ３１０）処理部１３は、要約指示に対応する要約文字列の箇所であり、要約文字列と対になる箇所である要約箇所を取得する。なお、要約箇所は、例えば、要約文字列に対応する部分音声の開始時を特定する情報である。

（ステップＳ３１１）箇所出力部１４６は、要約文字列の元になる部分文字列に対応する箇所であり、推移ＵＩの中の特定の箇所である要約箇所を明示する出力を行う。箇所出力部１４６は、例えば、当該要約箇所を明示するバーを端末装置２に送信する。

（ステップＳ３１２）処理部１３は、カレント情報を要約箇所に更新する。ステップＳ３０１に戻る。なお、カレント情報は、映像の中の再生するポイントを特定する情報である。

（ステップＳ３１３）指示受付部１２１は、再生指示を受け付けたか否かを判断する。再生指示を受け付けた場合はステップＳ３１４に行き、再生指示を受け付けなかった場合はステップＳ３０１に戻る。ここで、指示受付部１２１は、例えば、再生指示を端末装置２から受信する。

（ステップＳ３１４）処理部１３は、再生処理を行う。ステップＳ３０１に戻る。なお、再生処理とは、会議情報の再生の処理である。再生処理の例について、図９のフローチャートを用いて説明する。

なお、図３のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、ステップＳ３０３の音声分割処理の例について、図４のフローチャートを用いて説明する。

（ステップＳ４０１）文字列取得部１３１は、カウンタｉに１を代入する。

（ステップＳ４０２）文字列取得部１３１は、取得された会話情報に含まれる音声情報の中に、ｉ番目の単位区間が存在するか否かを判断する。ｉ番目の単位区間が存在する場合はステップＳ４０３に行く、ｉ番目の単位区間が存在しない場合は上位処理にリターンする。

なお、単位区間とは、音声情報の中の区切りを検知するための対象の区間であり、１以上の音声特徴量を取得する区間である。

（ステップＳ４０３）文字列取得部１３１は、ｉ番目の単位区間の音声情報から、１以上の音声特徴量を取得する。なお、音声特徴量は、例えば、メルスペクトル、ＭＦＣＣ、発話の速度等であるが、問わない。

（ステップＳ４０４）文字列取得部１３１は、ステップＳ４０３で取得した音声特徴量を用いて、ｉ番目の単位区間が区切りであるか否かを判断する。区切りである場合はステップＳ４０５に行き、区切りでない場合はステップＳ４０９に行く。なお、ここで区切りは、通常、発話のユーザが変わった場合である。

（ステップＳ４０５）文字列取得部１３１は、音声情報の中のｉ番目の単位区間の箇所に、区切りを示す区切りタグを付加する。

なお、ｉ番目の単位区間の箇所は、例えば、ｉ番目の単位区間の直前、ｉ番目の単位区間の直後、またはｉ番目の単位区間の中である。

また、文字列取得部１３１は、区切りタグを付加する以外の処理であり、区切りを明示する処理を行っても良い。区切りを明示する処理は、例えば、区切りの箇所を特定する箇所情報を図示しないバッファに蓄積する処理である。

（ステップＳ４０６）文字列取得部１３１は、前の区切りの単位区間の次の単位区間からｉ番目の単位区間までの一連の音声情報である部分音声を取得する。

（ステップＳ４０７）文字列取得部１３１は、ステップＳ４０６で取得した部分音声に対する音声認識結果である部分文字列を取得し、当該部分文字列を部分音声に対応付ける。

文字列取得部１３１は、例えば、ステップＳ４０５で取得した部分音声に対して音声認識処理を行い、部分文字列を取得する。文字列取得部１３１は、例えば、ステップＳ４０５で取得した部分音声を図示しない音声認識サーバに送信し、当該音声認識サーバから部分文字列を受信する。

（ステップＳ４０８）属性値取得手段１３４１は、部分音声を発話したユーザのユーザ識別子を取得し、当該ユーザ識別子を部分文字列および部分音声に対応付ける。なお、ユーザ識別子を取得する方法は問わない。

属性値取得手段１３４１は、例えば、ステップＳ４０３で取得した音声特徴量を用いて、ユーザ識別子を取得する。属性値取得手段１３４１は、例えば、部分音声に対応付いているユーザ識別子を取得する。

（ステップＳ４０９）文字列取得部１３１は、カウンタｉを１、インクリメントする。ステップＳ４０２に戻る。

次に、ステップＳ３０４の選択処理の例について、図５のフローチャートを用いて説明する。

（ステップＳ５０１）選択部１３４は、カウンタｉに１を代入する。

（ステップＳ５０２）属性値取得手段１３４１は、ステップＳ３０３で取得された部分文字列の中で、ｉ番目の部分文字列が存在するか否かを判断する。ｉ番目の部分文字列が存在する場合はステップＳ５０３に行き、ｉ番目の部分文字列が存在しない場合はステップＳ５０５に行く。

（ステップＳ５０３）属性値取得手段１３４１は、ｉ番目の部分文字列に対応する１以上の発話属性値を取得する。なお、ｉ番目の部分文字列に対応する１以上の発話属性値は、ｉ番目の部分文字列に対応する部分音声に対応する１以上の発話属性値でもある。

（ステップＳ５０４）選択部１３４は、カウンタｉを１、インクリメントする。ステップＳ５０２に戻る。

（ステップＳ５０５）選択部１３４は、カウンタｊに１を代入する。

（ステップＳ５０６）属性値取得手段１３４１は、会話に参加しているユーザのユーザ識別子の中で、ｊ番目のユーザ識別子が存在するか否かを判断する。

（ステップＳ５０７）属性値取得手段１３４１は、ｊ番目のユーザ識別子に対応する１以上のユーザ属性値を取得する。

（ステップＳ５０８）選択部１３４は、カウンタｊを１、インクリメントする。ステップＳ５０６に戻る。

（ステップＳ５０９）選択部１３４は、カウンタｉに１を代入する。

（ステップＳ５１０）選択部１３４は、ステップＳ３０３で取得された部分文字列の中で、ｉ番目の部分文字列が存在するか否かを判断する。ｉ番目の部分文字列が存在する場合はステップＳ５１１に行き、ｉ番目の部分文字列が存在しない場合は上位処理にリターンする。

（ステップＳ５１１）選択手段１３４２は、カウンタｋに１を代入する。

（ステップＳ５１２）選択手段１３４２は、条件格納部１１２に、ｋ番目の選択条件が存在するか否かを判断する。ｋ番目の選択条件が存在する場合はステップＳ５１３に行き、ｋ番目の選択条件が存在しない場合はステップＳ５１７に行く。

（ステップＳ５１３）選択手段１３４２は、条件格納部１１２から、ｋ番目の選択条件を取得する。

（ステップＳ５１４）選択手段１３４２は、取得されている発話属性値およびユーザ属性値の中から１以上の属性値を用いて、ｋ番目の選択条件の判断のために使用する１以上の情報を取得する。

（ステップＳ５１５）選択手段１３４２は、ステップＳ５１４で取得した１以上の情報を用いて、ｋ番目の選択条件に合致するか否かを判断し、判断結果をｋ番目の選択条件に対応付けて、図示しないバッファに一時蓄積する。

（ステップＳ５１６）選択部１３４は、カウンタｋを１、インクリメントする。ステップＳ５１２に戻る。

（ステップＳ５１７）選択手段１３４２は、ステップＳ５１５で蓄積された１以上の判断結果を用いて、ｉ番目の部分文字列を選択するか否かを判断する。ｉ番目の部分文字列を選択する場合はステップＳ５１８に行き、ｉ番目の部分文字列を選択しない場合はステップＳ５１９に行く。

（ステップＳ５１８）選択手段１３４２は、ｉ番目の部分文字列を識別する部分識別子を図示しないバッファに蓄積する。なお、部分識別子とは、部分文字列を識別する情報である。部分識別子は、例えば、ＩＤである。

（ステップＳ５１９）選択部１３４は、カウンタｉを１、インクリメントする。ステップＳ５１０に戻る。

次に、ステップＳ３０５の要約処理の例について、図６のフローチャートを用いて説明する。

（ステップＳ６０１）要約部１３５は、カウンタｉに１を代入する。

（ステップＳ６０２）要約部１３５は、要約対象のｉ番目の部分の部分識別子が存在するか否かを判断する。ｉ番目の部分の部分識別子が存在する場合はステップＳ６０３に行き、ｉ番目の部分の部分識別子が存在しない場合は上位処理にリターンする。

（ステップＳ６０３）要約部１３５は、要約対象のｉ番目の部分の部分識別子と対になる部分文字列を取得する。

（ステップＳ６０４）要約部１３５は、カウンタｊに１を代入する。

（ステップＳ６０５）要約部１３５は、ｊ番目の種類の要約を取得するか否かを判断する。ｊ番目の種類の要約を取得する場合はステップＳ６０６に行き、ｊ番目の種類の要約を取得しない場合はステップＳ６０８に行く。

（ステップＳ６０６）要約部１３５は、元文字列を用いて、ｊ番目の種類の要約文字列を取得する。なお、元文字列とは、要約文字列を取得する元になる文字列である。元文字列は、ステップＳ６０３で取得したｉ番目の部分文字列、または（ｉ－１）番目以前に取得した要約文字列である。

要約部１３５は、例えば、元文字列を、図示しない要約サーバに送信し、当該要約サーバから要約文字列を受信する。要約部１３５は、例えば、元文字列に対して、要約のための処理を行い、要約文字列を取得する。

（ステップＳ６０７）要約部１３５は、カウンタｊを１、インクリメントする。ステップＳ６０５に戻る。

（ステップＳ６０８）要約部１３５は、カウンタｉを１、インクリメントする。ステップＳ６０２に戻る。

次に、ステップＳ６３０６の重要度取得処理の例について、図７のフローチャートを用いて説明する。

（ステップＳ７０１）重要度取得部１３３は、カウンタｉに１を代入する。

（ステップＳ７０２）重要度取得部１３３は、重要度を取得するｉ番目の部分の部分識別子が存在するか否かを判断する。ｉ番目の部分の部分識別子が存在する場合はステップＳ７０３に行き、ｉ番目の部分の部分識別子が存在しない場合は上位処理にリターンする。

（ステップＳ７０３）重要度取得部１３３は、ｉ番目の部分の部分識別子に対応する１以上の属性値であり、重要度を取得する際に使用する１以上の属性値を取得する。なお、１以上の属性値は、例えば、部分文字列の長さを含む。１以上の属性値は、例えば、部分音声の音量の平均値を含む。

（ステップＳ７０４）重要度取得部１３３は、ステップＳ７０３で取得した１以上の属性値を用いて、重要度を取得し、当該重要度をｉ番目の部分の部分識別子に対応付けて蓄積する。

（ステップＳ７０５）重要度取得部１３３は、カウンタｉを１、インクリメントする。ステップＳ７０２に戻る。

次に、ステップＳ３０７の画面構成処理の例について、図８のフローチャートを用いて説明する。

（ステップＳ８０１）処理部１３は、映像と音声情報とを取得し、画面の雛形情報に配置する。なお、画面の雛形情報は、格納部１１に格納されている。

（ステップＳ８０２）処理部１３は、カウンタｉに１を代入する。

（ステップＳ８０３）処理部１３は、会話の参加者のユーザのユーザ識別子の中で、ｉ番目のユーザ識別子が存在するか否かを判断する。ｉ番目のユーザ識別子が存在する場合はステップＳ８０４に行き、ｉ番目のユーザ識別子が存在しない場合はステップＳ８０９に行く。

（ステップＳ８０４）処理部１３は、ｉ番目のユーザ識別子と対になるユーザ情報を取得する。なお、ユーザ情報は、主催者情報または参加者情報である。ユーザ情報は、例えば、ユーザの氏名を含む。

（ステップＳ８０５）処理部１３は、ｉ番目のユーザ識別子と対になる１以上のユーザ属性値を取得する。処理部１３は、ユーザ情報、および１以上のユーザ属性値を画面の雛形情報に配置する。なお、１以上のユーザ属性値は、例えば、ユーザの発話の比率、ユーザの音声特徴量（例えば、発話の速度）である。

（ステップＳ８０６）処理部１３は、ｉ番目のユーザ識別子と対になる１以上の各部分音声の時間情報を取得する。時間情報とは、部分音声の開始時および終了時を特定する情報である。

（ステップＳ８０７）処理部１３は、ステップＳ８０６で取得した１以上の各部分音声の時間情報を用いて、ｉ番目のユーザ識別子に対応する推移ＵＩを構成し、当該推移ＵＩを画面の雛形情報に配置する。

（ステップＳ８０８）処理部１３は、カウンタｉを１、インクリメントする。ステップＳ８０３に行く。

（ステップＳ８０９）処理部１３は、カウンタｊに１を代入する。

（ステップＳ８１０）処理部１３は、ｊ番目の要約対象の部分文字列の部分識別子が存在するか否かを判断する。ｊ番目の要約対象の部分識別子が存在する場合はステップＳ８１１に行き、ｊ番目の要約対象の部分識別子が存在しない場合はステップＳ８１３に行く。

（ステップＳ８１１）処理部１３は、ｊ番目の要約対象の部分文字列の１または２種類以上の要約文字列を取得し、画面の雛形情報に配置する。

（ステップＳ８１２）処理部１３は、カウンタｊを１、インクリメントする。ステップＳ８１０に行く。

（ステップＳ８１３）処理部１３は、カウンタｋに１を代入する。

（ステップＳ８１４）処理部１３は、ｋ番目のトピックが存在するか否かを判断する。ｋ番目のトピックが存在する場合はステップＳ８１５に行き、ｋ番目のトピックが存在しない場合は上位処理にリターンする。

（ステップＳ８１５）処理部１３は、ｋ番目のトピックに対する統計処理を行い、統計処理結果を取得する。統計処理結果は、例えば、ｋ番目のトピックの会話の割合い、ｋ番目のトピックの会話の時間の長さである。

（ステップＳ８１６）処理部１３は、カウンタｋを１、インクリメントする。ステップＳ８１４に行く。

次に、ステップＳ３１４の再生処理の例について、図９のフローチャートを用いて説明する。

（ステップＳ９０１）処理部１３は、カレント情報を取得する。

（ステップＳ９０２）処理部１３は、カレント情報に対応する箇所の映像と音声情報とを取得する。

（ステップＳ９０３）処理部１３は、ステップＳ９０２で取得した箇所の映像と音声情報とを出力する。

（ステップＳ９０４）指示受付部１２１は、指示を受け付けたか否かを判断する。指示を受け付けた場合はステップＳ９０５に行き、指示を受け付けなかった場合はステップＳ９０７に行く。

（ステップＳ９０５）処理部１３は、ステップＳ９０４で受け付けられた指示が終了指示であるか否かを判断する。終了指示である場合は上位処理にリターンし、終了指示でない場合はステップＳ９０６行く。

（ステップＳ９０６）処理部１３は、指示に応じた処理を行う。ステップＳ９０２に戻る。指示に応じた処理は、例えば、カレント情報を変更する処理である。

次に、端末装置２の動作例について、図１０のフローチャートを用いて説明する。

（ステップＳ１００１）端末受付部２２は、出力指示を受け付けたか否かを判断する。出力指示を受け付けた場合はステップＳ１００２に行き、出力指示を受け付けなかった場合はステップＳ１００６に行く。

（ステップＳ１００２）端末処理部２３は、受け付けられた出力指示に応じて、送信する出力指示を構成する。端末送信部２４は、当該出力指示を会話要約装置１に送信する。

（ステップＳ１００３）端末受信部２５は、画面情報を受信したか否かを判断する。画面情報を受信した場合はステップＳ１００４に行き、画面情報を受信しなかった場合はステップＳ１００３に行く。

（ステップＳ１００４）端末処理部２３は、受信された画面情報を用いて、画面を構成する。

（ステップＳ１００５）端末出力部２６は、ステップＳ１００４で構成された画面を出力する。ステップＳ１００１に戻る。

（ステップＳ１００６）端末受付部２２は、要約指示を受け付けたか否かを判断する。出力指示を受け付けた場合はステップＳ１００７に行き、要約指示を受け付けなかった場合はステップＳ１００９に行く。

（ステップＳ１００７）端末処理部２３は、要約指示に対応する要約文字列の箇所であり、要約文字列と対になる箇所である要約箇所を取得する。端末出力部２６は、要約文字列の元になる部分文字列に対応する箇所であり、推移ＵＩの中の特定の箇所である要約箇所を明示する出力を行う。端末出力部２６は、例えば、当該要約箇所を明示するバーを出力する。

（ステップＳ１００８）端末処理部２３は、カレント情報を要約箇所に更新する。ステップＳ１００１に戻る。

（ステップＳ１００９）端末受付部２２は、再生指示を受け付けたか否かを判断する。再生指示を受け付けた場合はステップＳ１０１０に行き、再生指示を受け付けなかった場合はステップＳ１００１に戻る。

（ステップＳ１０１０）端末処理部２３は、再生処理を行う。再生処理は、図９で説明した処理と同様の処理である。

なお、図１０のフローチャートにおいて、要約指示と再生指示とを会話要約装置１に送信して、当該指示に応じた情報を会話要約装置１から受信し、出力しても良い。

また、図１０のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、本実施の形態における情報システムＡの具体的な動作例について説明する。

会話要約装置１の条件格納部１１２には、図１１に示す条件管理表が格納されている。条件管理表とは、１または２以上の選択条件を管理する表である。条件管理表（図１１）は、「ＩＤ」「除外条件」「条件種類」を有する１以上のレコードを管理する。「ＩＤ」はレコードを識別する情報である。「除外条件」は、要約を作成する対象から除外するための条件である。いずれの除外条件にも合致しない部分文字列は要約の対象として選択される。従って、除外条件も選択条件の例である。「条件種類」は、除外条件の種類を特定する情報である。「条件種類」は、ユーザ条件、発話条件、または内容条件である。

条件管理表の「ＩＤ＝１」の除外条件は、主催者の発話は要約の対象にならないことを示す。「ＩＤ＝２」の除外条件は、発話時間が最大のユーザ（例えば、営業担当者）の発話は要約の対象にならないことを示す。「ＩＤ＝３」の除外条件は、発話時間が閾値以内の短い発話は要約の対象にならないことを示す。「ＩＤ＝４」の除外条件は、発話の部分文字列の中に感嘆詞が含まれる場合、当該部分文字列は要約の対象にならないことを示す。「ＩＤ＝５」の除外条件は、発話の部分文字列のクラスが「あいさつクラス」であった場合、当該部分文字列は要約の対象にならないことを示す。

かかる状況において、ユーザは、出力指示を端末装置２に入力した、とする。そして、端末装置２は、出力指示を受け付け、会話要約装置１に送信する。

会話要約装置１の指示受付部１２１は、端末装置２から出力指示を受信する。次に、処理部１３は、出力指示が特定する会話情報を会話格納部１１１から取得する。

次に、文字列取得部１３１は、会話情報が有する音声情報に対して、図４のフローチャートを用いて説明した分割処理を行い、２以上の部分文字列を取得する。

次に、選択部１３４は、文字列取得部１３１が取得した２以上の部分文字列に対して、図５のフローチャートを用いて説明した選択処理を行う。選択処理の結果、選択部１３４は、要約を取得する対象の１以上の部分文字列を決定する。

次に、要約部１３５は、図６のフローチャートを用いて説明した要約処理により、要約取得対象の１以上の各部分文字列に対する要約文字列を取得する。ここで、要約部１３５は、１以上の各部分文字列に対して、３種類の要約を取得する、とする。３種類の要約は、ここでは、トピック、タイトル、および要約文である。トピックは、部分文字列に対応する発話のトピックである。タイトルは、部分文字列に対応する発話のタイトルである。要約文は、部分文字列を要約した１または２以上の文である。

なお、ここでは、要約部１３５は、例えば、生成型の人工知能であるＣｈａｔＧＰＴに部分文字列を与え、当該部分文字列のトピックを出力するように指示し、ＣｈａｔＧＰＴから当該部分文字列のトピックを取得する。また、要約部１３５は、例えば、生成型の人工知能であるＣｈａｔＧＰＴに部分文字列を与え、当該部分文字列のタイトルを出力するように指示し、ＣｈａｔＧＰＴから当該部分文字列のタイトルを取得する。さらに、要約部１３５は、例えば、生成型の人工知能であるＣｈａｔＧＰＴに部分文字列を与え、当該部分文字列を要約するように指示し、ＣｈａｔＧＰＴから当該部分文字列の要約文を取得する。

次に、処理部１３は、図８のフローチャートを用いて説明した画面の構成処理を行い、画面情報を構成する。なお、ここでは、重要度取得部１３３は、部分文字列に対応する重要度を取得しておらず、画面情報は重要度を含まない、とする。

次に、出力部１４は、構成された画面情報を端末装置２に送信する。

次に、端末装置２の端末受信部２５は、画面情報を受信する。次に、端末処理部２３は、受信された画面情報を用いて、画面を構成する。次に端末出力部２６は、構成された画面を出力する。かかる出力のイメージ例は、図１２である。

図１２の１２０１は、会議の映像を出力するウィンドウである。１２０２は、部分文字列のタイトルである。１２０３は、部分文字列の要約文である。１２０４は、一ユーザに対して構成された推移ＵＩである。ここでの推移ＵＩは、会議の全体の中において、当該ユーザが発話していた区間がバーで表示されている（１２０５）。１２０６は、３つの各トピックに対する統計処理結果であり、各トピックの発話が行われていた総時間、および割合いである。

次に、ユーザは、図１２において出力されている複数の要約のうち、一の要約（１２０７）を指示した、とする。

すると、端末装置２の端末受付部２２は、要約指示を受け付ける。次に、端末処理部２３は、要約指示に対応する要約文字列の箇所であり、要約文字列と対になる箇所である要約箇所を取得する。端末出力部２６は、要約文字列の元になる部分文字列に対応する箇所であり、推移ＵＩの中の特定の箇所である要約箇所を明示する出力を行う。端末出力部２６は、例えば、当該要約箇所を明示するバー（１２０８）を出力する。なお、要約箇所は、ここでは、要約に対応する部分文字列と対になる開始時（０５：０６）である、とする。そして、端末処理部２３は、カレント情報を要約箇所（０５：０６）に更新する。

次に、ユーザは、図１２の画面に対して、再生ボタン１２０９を指示した、とする。すると、端末受付部２２は、再生指示を受け付ける。

そして、端末処理部２３は、カレント情報（０５：０６）が示す映像の箇所から、映像と音声情報とを再生する。

以上、本実施の形態によれば、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できる。

また、本実施の形態によれば、要約が必要なユーザの発話に対して、要約を得ることができる。

また、本実施の形態によれば、要約が必要な発話に対して、要約を得ることができる。

また、本実施の形態によれば、要約が不要な品詞に対応する発話に対して、要約を作成しないために、ユーザは必要な要約を得ることができる。

さらに、本実施の形態によれば、必要な２以上の種類の要約を得ることができる。

なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ－ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における会話要約装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択部と、前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、前記要約部が取得した前記１以上の要約文字列を出力する要約出力部として機能させるためのプログラムである。

また、図１３は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の会話要約装置１等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１３は、このコンピュータシステム３００の概観図であり、図１４は、システム３００のブロック図である。

図１３において、コンピュータシステム３００は、ＣＤ－ＲＯＭドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

図１４において、コンピュータ３０１は、ＣＤ－ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、ＣＤ－ＲＯＭドライブ３０１２等に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ３０１５と、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の会話要約装置１等の機能を実行させるプログラムは、ＣＤ－ＲＯＭ３１０１に記憶されて、ＣＤ－ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ－ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の会話要約装置１等の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理（ハードウェアでしか行われない処理）は含まれない。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、一の装置に存在する２以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。

また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる会話要約装置１は、複数のユーザ間の会話の中で、選択条件を満たす一部分のみを要約して、要約した結果を出力できるという効果を有し、会話の要約を適切に行うサーバ等として有用である。

Ａ情報システム
１会話要約装置
２端末装置
１１格納部
１２受付部
１３処理部
１４出力部
２１端末格納部
２２端末受付部
２３端末処理部
２４端末送信部
２５端末受信部
２６端末出力部
１１１会話格納部
１１２条件格納部
１２１指示受付部
１３１文字列取得部
１３２ユーザ決定部
１３３重要度取得部
１３４選択部
１３５要約部
１４１音声出力部
１４２映像出力部
１４３ＵＩ出力部
１４４要約出力部
１４５重要度出力部
１４６箇所出力部
１３４１属性値取得手段
１３４２選択手段

Claims

コンピュータを、
複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声に対応する部分文字列に対して、当該部分文字列に対する発話を行ったユーザを決定するユーザ決定部と、
前記複数の各ユーザごとに、当該ユーザに対応する発話の長さに関する長さ情報を取得し、前記長さ情報の合計が最も長いユーザに対する部分文字列を除いて、１以上の部分文字列を取得する選択部と、
前記選択部が取得した前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
前記要約部が取得した前記１以上の要約文字列を出力する要約出力部として機能させるためのプログラム。
コンピュータを、
複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択部と、
前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
前記要約部が取得した前記１以上の要約文字列を出力する要約出力部として機能させるためのプログラムであって、
前記選択条件は、発話の長さに関する長さ情報に関する長さ条件を含み、
前記選択部は、
前記複数の各ユーザの発話ごとに、当該発話の長さ情報を取得し、当該長さ情報が、前記長さ条件を満たす長い発話であることを示す情報に対応する１以上の部分文字列を取得するものとして、前記コンピュータを機能させるためのプログラム。
コンピュータを、
複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択部と、
前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
前記要約部が取得した前記１以上の要約文字列を出力する要約出力部として機能させるためのプログラムであって、
前記選択部は、
前記複数の各ユーザの発話ごとに、当該発話の属性値を取得し、当該発話の属性値が、前記選択条件に合致する発話に対する１以上の部分文字列を取得し、
前記発話の属性値は、品詞を含み
前記選択条件は、特定の品詞に対応する部分を含まないことである、プログラム。
前記要約部は、
前記１以上の各部分文字列ごとに、２種類以上の要約文字列を取得し、
前記要約出力部は、
前記１以上の各部分文字列ごとに、２種類以上の前記要約文字列を出力するものとして、前記コンピュータを機能させるための請求項１から請求項３いずれか一項に記載のプログラム。
前記コンピュータを、
前記部分文字列または当該部分文字列に対応する要約文字列の重要度を取得する重要度取得部と、
前記重要度を出力する重要度出力部としてさらに機能させるための請求項１から請求項３いずれか一項に記載のプログラム。
前記コンピュータを、
前記会話における時間の推移を特定するユーザインターフェースである推移ＵＩを出力するＵＩ出力部と、
前記要約文字列の元になる部分文字列に対応する箇所であり、前記推移ＵＩの中の特定の箇所である要約箇所を明示する出力を行う箇所出力部としてさらに機能させるための請求項１から請求項３いずれか一項に記載のプログラム。
前記会話における映像と音声情報とを含む会話情報が格納される会話格納部にアクセス可能な前記コンピュータを、
前記要約出力部が出力した１以上の要約文字列の中の一の要約文字列に対する指示である要約指示を受け付ける指示受付部と、
前記一の要約文字列に対応する要約箇所に対応する前記映像を出力する映像出力部としてさらに機能させるための請求項１から請求項３いずれか一項に記載のプログラム。
複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声である１以上の各部分音声に対応する部分文字列に対して、当該部分文字列に対する発話を行ったユーザを決定するユーザ決定部と、
前記複数の各ユーザごとに、当該ユーザに対応する発話の長さに関する長さ情報を取得し、前記長さ情報の合計が最も長いユーザに対する部分文字列を除いて、１以上の部分文字列を取得する選択部と、
前記選択部が取得した前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
前記要約部が取得した前記１以上の要約文字列を出力する要約出力部とを具備する会話要約装置。
複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択部と、
前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
前記要約部が取得した前記１以上の要約文字列を出力する要約出力部とを具備し、
前記選択条件は、発話の長さに関する長さ情報に関する長さ条件を含み、
前記選択部は、
前記複数の各ユーザの発話ごとに、当該発話の長さ情報を取得し、当該長さ情報が、前記長さ条件を満たす長い発話であることを示す情報に対応する１以上の部分文字列を取得する、会話要約装置。
複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択部と、
前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約部と、
前記要約部が取得した前記１以上の要約文字列を出力する要約出力部として機能させるためのプログラムであって、
前記選択部は、
前記複数の各ユーザの発話ごとに、当該発話の属性値を取得し、当該発話の属性値が、前記選択条件に合致する発話に対する１以上の部分文字列を取得し、
前記発話の属性値は、品詞を含み
前記選択条件は、特定の品詞に対応する部分を含まないことである、会話要約装置。
ユーザ決定部と、選択部と、要約部と、要約出力部とにより実現される会話要約方法であって、
前記ユーザ決定部が、複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声に対応する部分文字列に対して、当該部分文字列に対する発話を行ったユーザを決定するユーザ決定ステップと、
前記選択部が、前記複数の各ユーザごとに、当該ユーザに対応する発話の長さに関する長さ情報を取得し、前記長さ情報の合計が最も長いユーザに対する部分文字列を除いて、１以上の部分文字列を取得する選択ステップと、
前記要約部が、前記選択ステップで取得された前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約ステップと、
前記要約出力部が、前記要約ステップで取得された前記１以上の要約文字列を出力する要約出力ステップとを具備する会話要約方法。
選択部と、要約部と、要約出力部とにより実現される会話要約方法であって、
前記選択部が、複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択ステップと、
前記要約部が、前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約ステップと、
前記要約出力部が、前記要約ステップで取得された前記１以上の要約文字列を出力する要約出力ステップとを具備し、
前記選択条件は、発話の長さに関する長さ情報に関する長さ条件を含み、
前記選択ステップにおいて、
前記複数の各ユーザの発話ごとに、当該発話の長さ情報を取得し、当該長さ情報が、前記長さ条件を満たす長い発話であることを示す情報に対応する１以上の部分文字列を取得する、会話要約方法。
選択部と、要約部と、要約出力部とにより実現される会話要約方法であって、
前記選択部が、複数のユーザ間の会話の音声情報の中の一部の音声情報である１以上の各部分音声であり、選択条件に合致する１以上の各部分音声に対応する部分文字列を取得する選択ステップと、
前記要約部が、前記１以上の各部分文字列ごとに、当該部分文字列を要約した文字列である要約文字列を取得する要約ステップと、
前記要約出力部が、前記要約ステップで取得された前記１以上の要約文字列を出力する要約出力ステップとを具備し、
前記選択ステップにおいて、
前記複数の各ユーザの発話ごとに、当該発話の属性値を取得し、当該発話の属性値が、前記選択条件に合致する発話に対する１以上の部分文字列を取得し、
前記発話の属性値は、品詞を含み
前記選択条件は、特定の品詞に対応する部分を含まないことである、会話要約方法。