JP7172299B2

JP7172299B2 - 情報処理装置、情報処理方法、プログラムおよび情報処理システム

Info

Publication number: JP7172299B2
Application number: JP2018162690A
Authority: JP
Inventors: 崇史梶原
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2022-11-16
Anticipated expiration: 2038-08-31
Also published as: JP2020035292A

Description

本発明は、情報処理装置、情報処理方法、プログラムおよび情報処理システムに関する。

近年、音声認識技術および声紋認識技術を活用する、議事録作成技術の研究が進められている。例えば、特許文献１には、会議に参加する人物名と声紋情報を事前にデータベースに登録しておき、会議における発言のテキストデータに、当該発言から得られる声紋情報に関連付けてデータベースに登録された人物名を付する技術が記載されている。また、特許文献２には、自己紹介の発言に含まれる人物名と、当該発言から得られる声紋情報を関連付けてデータベースに登録する技術が記載されている。

特開２００７－２３３０７５号公報特開２００７－２４１１３０号公報

しかし、特許文献１に記載の技術では、初めて会議に参加する人物の人物名および声紋情報を会議前にデータベースに登録するための作業が生じる。特許文献２に記載の技術では、自己紹介において発言者が自分の名前を言わない場合、当該発言者の人物名と当該発言者の声紋情報を関連付けて登録することは困難である。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、人物名と声紋情報の関連付けのための作業負荷を軽減することが可能な、新規かつ改良された情報処理装置、情報処理方法、プログラムおよび情報処理システムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、第１の発言の内容を示すテキストデータに含まれる人物名を取得する人物名取得部と、前記第１の発言の後に行われた第２の発言の声紋情報を取得する声紋情報取得部と、前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納する制御部と、を備え、前記制御部は、前記人物名取得部により取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納する、情報処理装置が提供される。

前記制御部は、前記声紋情報取得部により取得された声紋情報に対応する声紋情報が前記データベースに人物名と関連付けて格納されていないことに基づき、前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納してもよい。

前記制御部は、前記第１の発言の後に行われた前記第２の発言を含む所定数の発言の範囲内で、前記声紋情報取得部により取得された声紋情報に対応する声紋情報が前記データベースに名前情報と関連付けて格納されているか否かを判定し、判定の結果に応じて前記人物名および前記声紋情報の前記データベースへの格納を制御してもよい。

前記人物名取得部により複数の人物名が取得された場合、前記制御部は、前記第１の発言において前記複数の人物名が現れた順序、および前記声紋情報取得部により前記データベースに人物名と関連付けて格納されていない声紋情報が取得された発言の順序に従って、前記人物名および前記声紋情報の前記データベースへの格納を制御してもよい。

前記制御部は、前記第１の発言および前記第２の発言を含む複数の発言のテキストデータ、および各発言の発言者の人物名を含む表示画面を生成し、前記制御部は、前記各発言の発言者の人物名には、前記各発言の声紋情報に関連付けて前記データベースに関連付けて格納されている人物名を用いてもよい。

前記制御部は、前記表示画面に、発言があった人物の人物名の一覧を配置してもよい。

前記第１の発言は、人物を紹介する意味を有する発言であってもよい。

また、上記課題を解決するために、本発明の別の観点によれば、第１の発言の内容を示すテキストデータに含まれる人物名を取得することと、前記第１の発言の後に行われた第２の発言の声紋情報を取得することと、取得された人物名と、取得された声紋情報を関連付けてデータベースに格納することと、を含み、前記格納することは、前記取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納することを含む、情報処理方法が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、第１の発言の内容を示すテキストデータに含まれる人物名を取得する人物名取得部と、前記第１の発言の後に行われた第２の発言の声紋情報を取得する声紋情報取得部と、前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納する制御部と、を備え、前記制御部は、前記人物名取得部により取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納する、情報処理装置として機能させるための、として機能させるための、プログラムが提供される。

また、上記課題を解決するために、本発明の別の観点によれば、第１の発言の内容を示すテキストデータに含まれる人物名を取得する人物名取得部と、前記第１の発言の後に行われた第２の発言の声紋情報を取得する声紋情報取得部と、前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納する制御部と、を備え、前記制御部は、前記人物名取得部により取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納する、情報処理システムが提供される。

以上説明した本発明によれば、人物名と声紋情報の関連付けのための作業負荷を軽減することが可能である。

本発明の実施形態による議事録作成システムの概要を示す説明図である。議事録画面の具体例を示す説明図である。データベースに格納される情報の具体例を示す説明図である。本発明の実施形態による議事録作成サーバ２０の構成を示す説明図である。制御部２６０による制御の具体例を示す説明図である。制御部２６０による制御の他の具体例を示す説明図である。本発明の実施形態による議事録作成サーバ２０の動作を示すフローチャートである。本発明の実施形態による議事録作成サーバ２０のハードウェア構成を示す説明図である。

以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。

＜１．議事録作成システムの概要＞
本発明の実施形態は、複数の人物の間で行われるコミュニケーションの記録を自動で作成するための情報処理システムに関する。複数の人物の間でコミュニケーションが行われる場としては、例えば、対面の会議、座談会、ＴＶ会議およびＴＶ電話などが挙げられる。以下では、情報処理システムとして、対面の会議でのコミュニケーションの記録である議事録を自動で作成するための議事録作成システムについて説明を進める。

図１は、本発明の実施形態による議事録作成システムの概要を示す説明図である。図１に示したように、本発明の実施形態による議事録作成システムは、議事録表示装置１０、議事録作成サーバ２０、音声認識サーバ３０、ＡＩサーバ４０、声紋認証サーバ５０および声紋情報サーバ６０を有する。

（議事録表示装置）
議事録表示装置１０は、議事録作成サーバ２０が生成した議事録画面を表示する。例えば、議事録表示装置１０は、会議が行われる空間に配置され、議事録画面は会議の進行と共にリアルタイムで更新される。このため、会議の参加者は、議事録画面でそれまでの発言を確認しながら議論を進めることが可能である。ただし、本発明の実施形態は、会議後の議事録作成にも適用可能である。以下、図２を参照し、議事録画面の具体例を説明する。

図２は、議事録画面の具体例を示す説明図である。図２に示したように、議事録画面は、タイトル表示領域７１、議事録表示領域７２、発言者表示領域７３、出席者一覧表示領域７４および終了ボタン７５を含む。

タイトル表示領域７１には、議事録のタイトルが配置される。例えば、議事録のタイトルは、議事録表示装置１０へのユーザ操作により入力されてもよい。議事録表示領域７２には、出席者の発言を示すテキストデータが配置される。発言者表示領域７３には、議事録表示領域７２に配置されるテキストデータが誰の発言を示すテキストデータであるかが分かるように、各発言の発言者の人物名が配置される。例えば、図２に示した例では、「それでは第３回目の定例会を始めます。」というテキストデータと同じ行に、人物名「Ａ」が配置されている。このため、「それでは第３回目の定例会を始めます。」というテキストデータが人物「Ａ」の発言を示すテキストデータであることが理解される。各発言がどの人物による発言であるかを特定する処理については、詳細に後述する。出席者一覧表示領域７４には、それまでに発言があった人物の人物名の一覧が配置される。終了ボタン７５は、議事録の自動作成を終了させるためのボタンである。

（議事録作成サーバ）
議事録作成サーバ２０は、上述した議事録画面を生成する情報処理装置である。議事録作成サーバ２０は、会議の音声データに基づき、音声認識サーバ３０、ＡＩサーバ４０、声紋認証サーバ５０および声紋情報サーバ６０と協働して議事録画面を生成する。議事録作成サーバ２０の構成および動作は図４以降を参照して詳細に説明する。

（音声認識サーバ）
音声認識サーバ３０は、音声データを認識し、音声データの内容を表現するテキストデータを生成する。例えば、音声認識サーバ３０は、議事録作成サーバ２０から会議の音声データを受信し、会議の音声データの内容を表現するテキストデータを生成し、当該テキストデータを議事録作成サーバ２０に送信する。なお、音声認識サーバ３０は、音声データの無音区間の存在により音声データを区分し、音声データの区分ごとにテキストデータを生成してもよい。

（ＡＩサーバ）
ＡＩサーバ４０は、テキストデータから人物名を抽出する。例えば、ＡＩサーバ４０は、議事録作成サーバ２０からテキストデータを受信し、テキストデータから人物名を抽出し、当該人物名を議事録作成サーバ２０に送信する。さらに、ＡＩサーバ４０は、テキストデータが人物紹介の意味を有するテキストデータであるか否かを識別し、識別の結果を議事録作成サーバ２０に送信してもよい。

（声紋認証サーバ）
声紋認証サーバ５０は、音声データから声紋情報を取得する。例えば、声紋認証サーバ５０は、議事録作成サーバ２０から会議の音声データを受信し、会議の音声データの声紋情報を取得し、当該声紋情報を議事録作成サーバ２０に送信する。

（声紋情報サーバ）
声紋情報サーバ６０は、人物名と声紋情報を関連付けて格納するデータベース６２を有する。データベース６２は、図３に示すように、複数の人物名（例えば、人物名Ａ、人物名Ｂ）の各々に、当該人物名を有する人物の声紋情報（例えば、声紋情報Ａ、声紋情報Ｂ）を関連付けて格納する。なお、声紋情報は人物に応じて一意である。

なお、図１に示した一部の装置または全ての装置は一体的に構成されてもよい。例えば、音声認識サーバ３０、ＡＩサーバ４０および声紋認証サーバ５０は１つのサーバとして構成されてもよい。

（背景）
上述したデータベース６２に会議の全ての出席者の人物名および声紋情報が事前に格納されていれば、当該データベース６２を用いて各発言と人物との紐付けを行い得る。しかし、会議前に意図的に人物名および声紋情報を登録する作業を行うことは手間である。

本件発明者は、上記事情を一着眼点にして本発明の実施形態を創作するに至った。本発明の実施形態によれば、人物名と声紋情報の関連付けのための作業負荷を軽減することが可能である。以下、このような本発明の実施形態による議事録作成サーバ２０の構成および動作を順次詳細に説明する。

＜２．議事録作成サーバの構成＞
図４は、本発明の実施形態による議事録作成サーバ２０の構成を示す説明図である。図４に示したように、表示部２２０、通信部２３０、メモリ部２４０、データ蓄積部２５０および制御部２６０を有する。

（表示部）
表示部２２０は、議事録作成サーバ２０のコンソール機能のために用いられる画面を表示する。

（通信部）
通信部２３０は、他の装置とのインタフェースであり、他の装置と多様な情報を通信する。例えば、通信部２３０は、議事録表示装置１０から会議の音声データを受信する。また、通信部２３０は、当該音声データを音声認識サーバ３０に送信し、音声認識サーバ３０から音声データの内容を表現するテキストデータを受信する。また、通信部２３０は、当該テキストデータをＡＩサーバ４０に送信し、ＡＩサーバ４０から当該テキストデータに含まれる人物名を取得する人物名取得部としての機能を有する。また、通信部２３０は、音声データを声紋認証サーバ５０に送信し、声紋認証サーバ５０から音声データの声紋情報を受信する声紋情報取得部としての機能も有する。

（メモリ部）
メモリ部２４０は、データ蓄積部２５０に蓄積されたデータを読み込み、演算処理に当該データを利用するために当該データを一時的に格納する。

（データ蓄積部）
データ蓄積部２５０は、会議中に取得されたテキストデータおよび声紋情報などのデータを蓄積する。

（制御部）
制御部２６０は、議事録作成サーバ２０の動作全般を制御する。例えば、制御部２６０は、通信部２３０と他の装置との通信を制御する。また、制御部２６０は、図２を参照して説明した議事録画面を生成する。具体的には、制御部２６０は、手動で入力された議事録のタイトルをタイトル表示領域７１に配置する。また、制御部２６０は、音声認識サーバ３０により順次に取得されるテキストデータを順次に議事録表示領域７２に配置する。また、制御部２６０は、声紋認証サーバ５０により取得された１の発言の声紋情報がデータベース６２において人物名と関連付けて格納されている場合、発言者表示領域７３において当該発言を示すテキストデータと同じ行に当該人物名を配置する。また、制御部２６０は、発言者表示領域７３に配置した人物名の一覧、すなわち、それまでに発言があった人物の人物名の一覧を出席者一覧表示領域７４に配置する。

しかし、声紋認証サーバ５０により取得された１の発言の声紋情報が、データベース６２において人物名と関連付けて格納されていない場合もある。制御部２６０は、データベース６２において人物名と関連付けて格納されていない声紋情報が取得された場合に、当該声紋情報と人物名を関連付けてデータベース６２に格納し、当該人物名を議事録画面の発言者表示領域７３に配置し得る。なお、制御部２６０は、声紋情報および人物名を通信部２３０に声紋情報サーバ６０へ送信させることにより、声紋情報および人物名のデータベース６２への格納を実現する。

例えば、ある人物は、会議に初めて出席する他の人物を紹介するために、他の人物の人物名を含む第１の発言を行い得る。当該第１の発言の後に行われる第２の発言は、第１の発言で紹介された他の人物によるものである可能性が高い。

そこで、制御部２６０は、人物名を含む第１の発言の後の第２の発言について取得された声紋情報がデータベース６２において人物名と関連付けて格納されていない場合、当該人物名と第２の発言について取得された声紋情報を関連付けてデータベース６２に格納してもよい。以下、図５を参照して、制御部２６０による制御の具体例を説明する。

図５は、制御部２６０による制御の具体例を示す説明図である。図５に示した例では、人物「Ｂ」が「進捗のご報告の前に、本日より当ＰＪに新たに参加する者がおりますので紹介させて頂きます。ＸＸ部所属の、Ｃです。」という発言をし、その後に、「よろしくお願いします。」という発言がある。「よろしくお願いします。」という発言の声紋情報がデータベース６２に格納されていない場合、制御部２６０は、この「よろしくお願いします。」という発言の声紋情報を、人物「Ｂ」の発言に含まれる人物名「Ｃ」と関連付けてデータベース６２に格納し、かつ、図５の発言者表示領域７３に示したように、「よろしくお願いします。」という発言と同じ行に人物名「Ｃ」を配置する。その後、人物「Ｃ」による発言は、データベース６２に声紋情報が格納されている人物の発言として処理することが可能である。ここで、制御部２６０は、発言に人物名が含まれていることに加えて、発言の意味が人物の紹介であることが認識されたことに基づき、当該発言に続く発言に関して上述した制御を行ってもよい。

なお、ある人物が他の人物を紹介する発言をし、他の人物が発言するまでに、他の発言が介在する可能性がある。そこで、制御部２６０は、ある人物が他の人物を紹介する発言をした後、所定数の発言の範囲内で、データベース６２に格納されていない声紋情報を有する発言があったか否かを判定し、データベース６２に格納されていない声紋情報を有する発言があった場合、当該発言の声紋情報を上記他の人物の人物名と関連付けてデータベース６２に格納してもよい。

また、ある人物は、会議に初めて出席する複数の人物を紹介するために、複数の人物の人物名を含む第１の発言を行い得る。当該第１の発言の後に行われる複数の発言の各々は、第１の発言で紹介された複数の人物のうちのいずれかの人物によるものである可能性が高い。また、第１の発言で紹介された複数の人物は、第１の発言で複数の人物が紹介された順序に従って発言をする可能性が高い。

そこで、制御部２６０は、複数の人物名を含む第１の発言があった場合、第１の発言において複数の人物名が現れた順序、および第１の発言の後にデータベース６２において人物名と関連付けて格納されていな声紋情報が取得された発言の順序に従って、人物名および声紋情報のデータベース６２への格納を制御してもよい。以下、図６を参照して、制御部２６０による当該制御の具体例を説明する。

図６は、制御部２６０による制御の他の具体例を示す説明図である。図６に示した例では、人物「Ｂ」が、「進捗のご報告の前に、本日より当ＰＪに２名が参加することになりましたので紹介させて頂きます。奥から順に、Ｃ、Ｄです。」という発言をし、その後に、「よろしくお願いします。」という２つの発言がある。制御部２６０は、１つ目の「よろしくお願いします。」という発言の声紋情報を、人物「Ｂ」の発言において先に現れた人物名「Ｃ」と関連付けてデータベース６２に格納し、かつ、図６の発言者表示領域７３に示したように、１つ目の「よろしくお願いします。」という発言と同じ行に人物名「Ｃ」を配置する。さらに、制御部２６０は、２つ目の「よろしくお願いします。」という発言の声紋情報を、人物「Ｂ」の発言において後に現れた人物名「Ｄ」と関連付けてデータベース６２に格納し、かつ、図６の発言者表示領域７３に示したように、２つ目の「よろしくお願いします。」という発言と同じ行に人物名「Ｄ」を配置する。その後、人物「Ｃ」および人物「Ｄ」による発言は、データベース６２に声紋情報が格納されている人物の発言として処理することが可能である。

＜３．議事録作成サーバの動作＞
以上、本発明の実施形態による議事録作成サーバ２０の構成を説明した。続いて、図７を参照し、声紋情報がデータベース６２に格納されていない発言を行った人物の人物名を特定するための、本発明の実施形態による議事録作成サーバ２０の動作を整理する。

図７は、本発明の実施形態による議事録作成サーバ２０の動作を示すフローチャートである。まず、通信部２３０が会議の音声データを音声認識サーバ３０に送信し、通信部２３０が音声データの認識結果であるテキストデータを受信し、制御部２６０が当該テキストデータをデータ蓄積部２５０に蓄積し、当該テキストデータをメモリ部２４０に読み込む（Ｓ３０４）。会議の音声データは、会議室に設けられた集音装置により取得されてもよいし、議事録表示装置１０によって取得されてもよい。

続いて、通信部２３０がメモリ部２４０に読み込まれたテキストデータをＡＩサーバ４０に送信し、ＡＩサーバ４０が当該テキストデータの冒頭から末尾へと順に人物名の抽出を行った結果を通信部２３０が受信し、制御部２６０が人物名の抽出結果をデータ蓄積部２５０に蓄積し、当該人物名の抽出結果をメモリ部２４０に読み込む（Ｓ３０８）。

制御部２６０は、抽出された人物名の数をｎとし（Ｓ３１２）、ｎ≧１が成立するか否かを判断する（Ｓ３１６）。すなわち、制御部２６０は、人物名が１つ以上抽出されたか否かを判断する。人物名が１つ以上抽出されない場合（Ｓ３１６／Ｎｏ）、次の発言についてＳ３０４からの処理が繰り返される。

人物名が１つ以上抽出された場合（Ｓ３１６／Ｙｅｓ）、制御部２６０は、Ｓ３０８で抽出された１つ以上の人物名の各々を、Ｎａｍｅ（ｉ）と定義する（Ｓ３２０）。ここで、Ｓ３０８において最初に抽出された人物名がＮａｍｅ（１）に定義され、以降、人物名が抽出された順序に従って各人物名がＮａｍｅ（２）、Ｎａｍｅ（３）、に定義される。

その後、制御部２６０は、ｉを１に設定し、強制脱出フラグＥｓｃを０に設定する（Ｓ３２４）。強制脱出フラグＥｓｃは、後続のＳ３２８からＳ３６４の処理が永久的に行われることを防止するためのフラグである。

続いて、制御部２６０は、Ｓ３０４と同様の方法で、未処理の発言のうちの最初の発言から得られたテキストデータをデータ蓄積部２５０に蓄積し、当該テキストデータをメモリ部２４０に読み込む（Ｓ３２８）。そして、通信部２３０がＳ３２８で用いた発言の音声データを声紋認証サーバ５０に送信し、通信部２３０が声紋認証サーバ５０から当該音声データの声紋情報を受信し、制御部２６０が当該声紋情報をデータ蓄積部２５０に蓄積し、当該声紋情報をメモリ部２４０に読み込む（Ｓ３３２）。

そして、制御部２６０は、データベース６２を参照し、Ｓ３３２で得られた声紋情報がデータベース６２に格納されているか否かを判定する（Ｓ３３６）。Ｓ３３２で得られた声紋情報がデータベース６２に格納されている場合（Ｓ３３６／Ｙｅｓ）、制御部２６０は強制脱出フラグＥｓｃをインクリメントする（Ｓ３４０）。そして、強制脱出フラグＥｓｃが所定数である５未満である場合（Ｓ３４４／Ｙｅｓ）、Ｓ３２８からの処理が繰り返され、強制脱出フラグＥｓｃが５以上である場合（Ｓ３４４／Ｎｏ）、Ｓ３０４からの処理が繰り返される。すなわち、データベース６２に登録されている声紋情報を有する発言が５回続いた場合、Ｓ３４４において強制脱出フラグＥｓｃが５以上となり、Ｓ３０４からの処理が繰り返される。

一方、Ｓ３３２で得られた声紋情報がデータベース６２に格納されていない場合（Ｓ３３６／Ｎｏ）、制御部２６０は、強制脱出フラグＥｓｃを０に初期化する（Ｓ３４８）。そして、制御部２６０は、Ｓ３２０で定義したＮａｍｅ（ｉ）と、Ｓ３３２で得られた声紋情報とを関連付けてデータベース６２に格納する（Ｓ３５２）。さらに、制御部２６０は、議事録画面の発言者表示領域７３において、Ｓ３２８の発言を示すテキストデータと同じ行に、Ｓ３２０で定義したＮａｍｅ（ｉ）を表示する（Ｓ３５６）。

そして、制御部２６０は、ｉをインクリメントし（Ｓ３６０）、ｎ－ｉが０未満になるまで、Ｓ３２８からの処理が繰り返される（Ｓ３６４／Ｎｏ）。これは、Ｓ３２８で用いた発言に、Ｓ３０４の発言で紹介されたデータベース６２に声紋情報が格納されていない人物の発言が続く可能性を考慮した処理である。一方、ｎ－ｉが０未満になった場合（Ｓ３６４／Ｙｅｓ）、Ｓ３０４からの処理が繰り返される。なお、Ｓ３６４を経てＳ３０４の処理が行われる場合、Ｓ３２８の処理で認識された最も新しい発言の次の発言が認識されてもよいし、前回のＳ３０４の処理で認識された発言の次の発言が認識されてもよい。また、処理がいずれの段階である場合でも、議事録画面の終了ボタン７５の選択により、図７に示した動作は終了する。

＜４．作用効果＞
以上説明した本発明の実施形態によれば、人物名と声紋情報の関連付けを事前に行わなくても会議での発言を行った人物を特定し得るので、人物名と声紋情報の関連付けのための作業負荷を軽減することが可能である。また、自己紹介の発言に含まれる人物名と、当該発言から得られる声紋情報を関連付けてデータベースに登録する技術と比較して、本発明の実施形態は、自己紹介において発言者が自分の名前を言わない場合にも人物名と声紋情報の関連付けを実現し得るという利点を有する。

＜５．ハードウェア構成＞
以上、本発明の各実施形態を説明した。上述した議事録画面の生成およびデータベース６２の管理などの情報処理は、ソフトウェアと、以下に説明する議事録作成サーバ２０のハードウェアとの協働により実現される。

図８は、議事録作成サーバ２０のハードウェア構成を示したブロック図である。議事録作成サーバ２０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、ホストバス２０４と、を備える。また、議事録作成サーバ２０は、ブリッジ２０５と、外部バス２０６と、インタフェース２０７と、入力装置２０８と、表示装置２０９と、音声出力装置２１０と、ストレージ装置（ＨＤＤ）２１１と、ドライブ２１２と、ネットワークインタフェース２１５とを備える。

ＣＰＵ２０１は、演算処理装置および制御装置として機能し、各種プログラムに従って議事録作成サーバ２０内の動作全般を制御する。また、ＣＰＵ２０１は、マイクロプロセッサであってもよい。ＲＯＭ２０２は、ＣＰＵ２０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ２０３は、メモリ部２４０に対応し得る構成であり、ＣＰＵ２０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバス２０４により相互に接続されている。これらＣＰＵ２０１、ＲＯＭ２０２およびＲＡＭ２０３とソフトウェアとの協働により、図４を参照して説明した制御部２６０の機能が実現され得る。

ホストバス２０４は、ブリッジ２０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス２０６に接続されている。なお、必ずしもホストバス２０４、ブリッジ２０５および外部バス２０６を分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

入力装置２０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ２０１に出力する入力制御回路などから構成されている。議事録作成サーバ２０のユーザは、該入力装置２０８を操作することにより、議事録作成サーバ２０に対して各種のデータを入力したり処理動作を指示したりすることができる。

表示装置２０９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ）装置、プロジェクター装置、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）装置およびランプなどの表示装置を含む。また、音声出力装置２１０は、スピーカおよびヘッドホンなどの音声出力装置を含む。

ストレージ装置２１１は、データ蓄積部２５０に対応し得る構成であり、データ格納用の装置である。ストレージ装置２１１は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置２１１は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔｒａｇｅＤｒｉｖｅ）、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置２１１は、ストレージを駆動し、ＣＰＵ２０１が実行するプログラムや各種データを格納する。

ドライブ２１２は、記憶媒体用リーダライタであり、議事録作成サーバ２０に内蔵、あるいは外付けされる。ドライブ２１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体２４に記録されている情報を読み出して、ＲＡＭ２０３またはストレージ装置２１１に出力する。また、ドライブ２１２は、リムーバブル記憶媒体２４に情報を書き込むこともできる。

ネットワークインタフェース２１５は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インタフェースである。また、ネットワークインタフェース２１５は、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

なお、議事録表示装置１０、音声認識サーバ３０、ＡＩサーバ４０、声紋認証サーバ５０および声紋情報サーバ６０のハードウェア構成にも、図８を参照して説明したハードウェア構成が適用されてもよい。

＜６．補足＞
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

例えば、本明細書の議事録作成サーバ２０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、議事録作成サーバ２０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

また、議事録表示装置１０、議事録作成サーバ２０、音声認識サーバ３０、ＡＩサーバ４０、声紋認証サーバ５０および声紋情報サーバ６０に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、上述した議事録表示装置１０、議事録作成サーバ２０、音声認識サーバ３０、ＡＩサーバ４０、声紋認証サーバ５０および声紋情報サーバ６０の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

１０議事録表示装置
２０議事録作成サーバ
３０音声認識サーバ
４０ＡＩサーバ
５０声紋認証サーバ
６０声紋情報サーバ
６２データベース
２２０表示部
２３０通信部
２４０メモリ部
２５０データ蓄積部
２６０制御部

Claims

第１の発言の内容を示すテキストデータに含まれる人物名を取得する人物名取得部と、
前記第１の発言の後に行われた第２の発言の声紋情報を取得する声紋情報取得部と、
前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納する制御部と、
を備え、
前記制御部は、前記人物名取得部により取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納する、情報処理装置。
前記制御部は、前記声紋情報取得部により取得された声紋情報に対応する声紋情報が前記データベースに人物名と関連付けて格納されていないことに基づき、前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納する、請求項１に記載の情報処理装置。
前記制御部は、前記第１の発言の後に行われた前記第２の発言を含む所定数の発言の範囲内で、前記声紋情報取得部により取得された声紋情報に対応する声紋情報が前記データベースに名前情報と関連付けて格納されているか否かを判定し、判定の結果に応じて前記人物名および前記声紋情報の前記データベースへの格納を制御する、請求項２に記載の情報処理装置。
前記人物名取得部により複数の人物名が取得された場合、前記制御部は、前記第１の発言において前記複数の人物名が現れた順序、および前記声紋情報取得部により前記データベースに人物名と関連付けて格納されていない声紋情報が取得された発言の順序に従って、前記人物名および前記声紋情報の前記データベースへの格納を制御する、請求項１に記載の情報処理装置。
前記制御部は、前記第１の発言および前記第２の発言を含む複数の発言のテキストデータ、および各発言の発言者の人物名を含む表示画面を生成し、
前記制御部は、前記各発言の発言者の人物名には、前記各発言の声紋情報に関連付けて前記データベースに関連付けて格納されている人物名を用いる、請求項１～４のいずれか一項に記載の情報処理装置。
前記制御部は、前記表示画面に、発言があった人物の人物名の一覧を配置する、請求項５に記載の情報処理装置。
前記第１の発言は、人物を紹介する意味を有する発言である、請求項１～６のいずれか一項に記載の情報処理装置。
第１の発言の内容を示すテキストデータに含まれる人物名を取得することと、
前記第１の発言の後に行われた第２の発言の声紋情報を取得することと、
取得された人物名と、取得された声紋情報を関連付けてデータベースに格納することと、
を含み、
前記格納することは、前記取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納することを含む、情報処理方法。
コンピュータを、
第１の発言の内容を示すテキストデータに含まれる人物名を取得する人物名取得部と、
前記第１の発言の後に行われた第２の発言の声紋情報を取得する声紋情報取得部と、
前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納する制御部と、
を備え、
前記制御部は、前記人物名取得部により取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納する、情報処理装置として機能させるための、プログラム。
第１の発言の内容を示すテキストデータに含まれる人物名を取得する人物名取得部と、
前記第１の発言の後に行われた第２の発言の声紋情報を取得する声紋情報取得部と、
前記人物名取得部により取得された人物名と、前記声紋情報取得部により取得された声紋情報を関連付けてデータベースに格納する制御部と、
を備え、
前記制御部は、前記人物名取得部により取得された人物名と、前記第２の発言のうちで、声紋情報が前記データベースに人物名と関連付けて格納されていない発言であって、かつ、最先である発言の声紋情報と、を関連付けてデータベースに格納する、情報処理システム。