JP2020064300A - 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム - Google Patents

備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム Download PDF

Info

Publication number
JP2020064300A
JP2020064300A JP2019185652A JP2019185652A JP2020064300A JP 2020064300 A JP2020064300 A JP 2020064300A JP 2019185652 A JP2019185652 A JP 2019185652A JP 2019185652 A JP2019185652 A JP 2019185652A JP 2020064300 A JP2020064300 A JP 2020064300A
Authority
JP
Japan
Prior art keywords
data
voice
utterance section
unit
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019185652A
Other languages
English (en)
Inventor
本間 健一
Kenichi Honma
健一 本間
千恵 森
Chie Mori
千恵 森
賢悟 山崎
Kengo Yamazaki
賢悟 山崎
雅実 名和
Masami Nawa
雅実 名和
亜希 澤村
Aki Sawamura
亜希 澤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Co Ltd
Original Assignee
AI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Co Ltd filed Critical AI Co Ltd
Publication of JP2020064300A publication Critical patent/JP2020064300A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】発話者ごとにマイクを用意し、設置する手間を省き、手軽に導入することの可能な備忘録作成システムを提供する。【解決手段】多チャンネルマイクロフォンアレイを備えた音声入出力装置3により発話区間の抽出を行い、音声データ、タイムスタンプ、発話者の位置を示す角度情報を出力し、データ記録部に音声データをタイムスタンプ及び角度情報と対応付けて記録し、テキストデータを音声データに対応付けて記録する。音声認識サーバは、音声データを受信し、音声認識を行い、認識データを送信する。ログ管理サーバは、認識データを受信し、テキストデータを作成し、音声データに対応付けてデータ記録部に記録させ、テキストデータをタイムスタンプ及び発話者と対応付け、選択によりテキストデータに対応する音声データを再生可能に表示装置に出力する。表示装置にて音声データの再生が選択されると音声入出力装置に音声データの再生を指示する。【選択図】図10

Description

本発明は、備忘録作成システム、備忘録作成システムの制御方法、および備忘録作成プログラムに関する。
従来から、音声認識を活用した議事録作成システムが提供されている。例えば、特許文献1においては、発話者ごとにマイクを用意して、議事録を作成するシステムが開示されている。
特開2005−165066号公報
しかし、特許文献1のシステムでは、発話者ごとにマイクを用意し、設置する手間がとコストがかかる。また、会議の参加者は、マイクに向かって話をする必要があり、手軽に導入できるものではない。
そこで、本発明では、発話者ごとにマイクを用意し、設置する手間を省き、手軽に導入することの可能な備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラムを提供することを目的とする。
前記課題を解決するため、本発明に係る備忘録作成システムの一態様は、
音声入出力装置と、データ記録部と、音声データ送信部と、音声認識サーバと、ログ管理サーバと、を備える備忘録作成システムであって、
前記音声入出力装置は、
多チャンネルマイクロフォンアレイと、
3次元空間における音源定位を行う音源定位部と、
発話区間を抽出する発話区間抽出部と、
前記発話区間の音声データと、タイムスタンプと、発話者の位置を示す角度情報とを出力するデータ出力部と、を備え、
前記データ記録部は、
前記発話区間の音声データを、前記タイムスタンプおよび前記角度情報と対応付けて記録し、さらに、前記発話区間の音声データをテキスト化したテキストデータを、前記発話区間の音声データに対応付けて記録し、
前記音声データ送信部は、
前記データ記録部に記録された前記発話区間の音声データを前記音声認識サーバに送信し、
前記音声認識サーバは、
前記発話区間の音声データを受信する音声データ受信部と、
受信した前記発話区間の音声データの音声認識を行う音声認識部と、
前記音声認識の結果としての前記発話区間の認識データを送信する認識データ送信部と、を備え、
前記ログ管理サーバは、
前記音声認識サーバから音声認識による前記発話区間の認識データを受信する認識データ受信部と、
前記発話区間ごとの認識データからテキストデータを作成するテキストデータ作成部と、
前記テキストデータを、前記発話区間の音声データをテキスト化したテキストデータとして、前記発話区間の音声データに対応付けて前記データ記録部に記録させる記録制御部と、
前記テキストデータを、前記タイムスタンプおよび前記発話者と対応付け、選択により前記テキストデータに対応する前記発話区間の音声データを再生可能に表示装置に出力する出力制御部と、
前記表示装置において、前記発話区間の音声データの再生が選択された場合には、前記音声入出力装置に前記発話区間の音声データの再生を指示する再生制御部と、を備える。
本態様によれば、多チャンネルマイクロフォンアレイを備えた音声入出力装置により、発話者の識別と、発話区間の抽出が行われる。発話区間の音声データは、タイムスタンプおよび角度情報と対応付けてデータ記録部に記録され、さらに発話区間の音声データをテキスト化したテキストデータが、発話区間の音声データに対応付けて記録される。音声認識は、音声認識サーバにより行われる。ログ管理サーバにおいては、音声認識サーバから音声認識による発話区間の認識データを受信すると、発話区間ごとの認識データからテキストデータを作成し、発話区間の音声データに対応付けてデータ記録部に記録させる。また、ログ管理サーバは、テキストデータを、タイムスタンプおよび発話者と対応付け、選択によりテキストデータに対応する発話区間の音声データを再生可能に表示装置に出力する。表示装置において、発話区間の音声データの再生が選択された場合には、音声入出力装置に発話区間の音声データの再生を指示し、音声入出力装置または表示装置等において、音声の再生が行われる。したがって、本態様によれば、会議の場に音声入出力装置を置いておくだけで、備忘録の作成が可能になり、発話者ごとにマイクをセッティングする等の手間を省くことができる。音声入出力装置は、360度音を拾うことが可能であり、備忘録作成システムにより発話者の識別が可能になるので、参加者は会議に集中することができる。さらに、本実施形態の備忘録作成システム1によれば、音声認識により自動的に音声のテキスト化を行うことができ、テキスト情報は、インデックスとして使用することができる。その結果、テキストに対応した実際の音声情報そのものを備忘録として提供することができる。以上のように、本態様の備忘録作成システムによれば、インデックス化されたテキスト情報に基づいて、ある程度、会議の内容を確認することが可能であり、さらに、必要に応じて、実際の発言内容そのものを確認することができる。
また、本発明は、前記備忘録作成システムを利用した備忘録作成方法、および前記備忘録作成システムにおけるログ管理サーバのプログラムとしても実現可能である。
本発明によれば、発話者ごとにマイクをセッティングする手間を省き、インデックス化されたテキスト情報に基づいて、ある程度、会議の内容を確認することが可能であり、さらに、必要に応じて、実際の発言内容そのものを確認することができる。
本発明に係る第1実施形態の備忘録作成システムを概略的に示す図である。 ログ管理サーバの機能を説明するための機能ブロック図である。 スマートスピーカの外観を示す図である。 スマートスピーカの機能を説明するための機能ブロック図である。 音声認識サーバの機能を説明するための機能ブロック図である。 音声データを含む送受信データの構造を示す模式図である。 発話者に関する情報を示す発話者データの構造を示す模式図である。 備忘録のログデータの構造を示す模式図である。 第1実施形態における事前登録処理の流れを示すシーケンス図である。 第1実施形態における備忘録作成処理の流れを示すシーケンス図である。 開始方法の選択画面の表示例を示す図である。 事前登録画面の表示例を示す図である。 メッセージログ画面の表示例を示す図である。 備忘録の一覧画面の表示例を示す図である。 本発明の第2実施形態に係るスマートスピーカの機能を説明するための機能ブロック図である。 第2実施形態における備忘録作成システムを示す図である。 第3実施形態における備忘録作成システムを示す図である。
(第1実施形態)
以下、本発明の第1実施形態について図面を参照しつつ説明する。図1は、本発明に係る第1実施形態の備忘録作成システムを概略的に示す図である。
(備忘録作成システム)
図1に示すように、本発明の第1実施形態の備忘録作成システム1は、ログ管理サーバ2と、音声入出力装置としてのスマートスピーカ3と、音声認識サーバ4とを備えている。ログ管理サーバ2、スマートスピーカ3、および音声認識サーバ4は、インターネット等のネットワーク5を介して相互に通信可能となっている。また、ユーザが使用する表示装置としてのパーソナルコンピュータ(PC)6は、ネットワーク5を介して備忘録作成システム1に接続可能となっている。
図2に、ログ管理サーバ2の機能を説明するための機能ブロック図である。図2に示すように、ログ管理サーバ2は、記録制御部20と、データ記録部21と、テキストデータ作成部22と、出力制御部23と、再生制御部24と、通信インターフェース(I/F)25とを備える。ログ管理サーバ2は、例えば、パーソナルコンピュータ等のコンピュータを用いることが可能であり、記録制御部20、テキストデータ作成部22、出力制御部23と、および再生制御部24は、コンピュータのCPU等から実現される。
データ記録部21は、例えばHDD(Hard Disk Drive)等の記憶媒体から構成される。本実施形態においては、一例として、データ記録部21をログ管理サーバ2に備えた態様について説明するが、本発明は、このような態様に限定される訳ではなく、データ記録部21をスマートスピーカ3に備えたり、あるいは、データ記録部21を単体の記憶装置としてログ管理サーバ2に接続可能に設けたりしてもよい。本実施形態においては、データ記録部21には、後述する備忘録作成に必要な種々のデータが記録される他、本発明の備忘録作成プログラムが記憶される。なお、備忘録作成プログラムを記憶する記憶部と、データ記録部21とを別々に設けてもよい。
記録制御部20は、スマートスピーカ3から送信されるタイムスタンプ、角度情報、および音声データ、並びに後述のテキストデータ作成部22により作成されるテキストデータを対応付けてデータ記録部21に記録させる機能を有する。また、記録制御部20は、角度情報に対して話者IDを設定し、パーソナルコンピュータ5において入力される発話者の名前と、話者IDとを、角度情報に対応付けてデータ記録部21に記録させる機能を有する。
テキストデータ作成部22は、音声認識サーバ4から送信される音声認識データからテキストデータを作成する機能を有する。
出力制御部23は、テキストデータと、タイムスタンプと、発話者の名前と対応付けた表示データをパーソナルコンピュータ5に送信する機能を有する。表示データには、音声データを再生するための再生ボタンが含まれる。
再生制御部24は、パーソナルコンピュータ5において表示されるログ表示画面において、再生ボタンが選択されると、対応する音声データをデータ記録部21から読み取り、スマートスピーカ3に送信する機能を有する。
通信インターフェース25は、ネットワーク5を用いたデータの通信を行うインターフェースであり、記録制御部20、データ記録部21、テキストデータ作成部22、出力制御部23、および再生制御部24により制御される。本実施形態においては、通信インターフェース25は、データ記録部21に記録された音声データを音声認識サーバ4に送信する音声データ送信部、および音声認識サーバ4から音声認識データを受信する認識データ受信部として機能する。
図3は、スマートスピーカ3の外観を示す図、図4は、スマートスピーカ3の機能を説明するための機能ブロック図である。図3に示すように、スマートスピーカ3は、円筒形の筐体を有しており、筐体の内部には、筐体の内周に沿った円周上に、多チャンネルのマイクが、筐体の縦方向に上下2段に配置されている。本実施形態では、一例として、8チャンネルのマイクが上下2段に配置された多チャンネルマイクロフォンアレイを採用している。
図4に示すように、スマートスピーカ3は、図4に示すように、多チャンネルマイクロフォンアレイ30、音源定位部31、発話区間抽出部32、データ出力部33、再生部34、および通信インターフェース35を備えている。音源定位部31、発話区間抽出部32、データ出力部33、および再生部34は、CPU等により実現される。
多チャンネルマイクロフォンアレイ30は、上述した8チャンネルのマイクが上下2段に配置されたマイクロフォンアレイであり、発話者の音声の入力を行う。
音源定位部31は、多チャンネルマイクロフォンアレイ30により入力した音声に基づいて、3次元空間における音源定位を行う機能を有する。音源定位を行うことにより、発話者の位置を角度で区別することができる。音源定位部31は、音源定位の結果を角度情報として出力する。
発話区間抽出部32は、発話区間を抽出する機能を有する。本実施形態における発話区間抽出部32は、機械学習アルゴリズムにより、人間の発話の周波数特性を学習した検知モデルを作成し、この検知モデルにおける音声の周波数特性と、発話者の発話の周波数特性との類似度合いを判断することにより、発話区間を抽出している。
データ出力部33は、抽出された発話区間の音声データと、音声データが抽出された時間を示すタイムスタンプと、発話者の位置を示す角度情報とを、ログ管理サーバ2に出力する機能を有する。
再生部34は、ログ管理サーバ2から出力される音声データを音声信号として再生する機能を有する。再生部34は、アンプおよびスピーカを備える。
通信インターフェース35は、ネットワーク5を用いたデータの通信を行うインターフェースであり、データ出力部33により制御される。本実施形態においては、通信インターフェース35は、抽出された発話区間の音声データと、音声データが抽出された時間を示すタイムスタンプと、発話者の位置を示す角度情報とをネットワーク5を介してログ管理サーバ2に送信する機能を有する。
図5に、音声認識サーバ4の機能を説明するための機能ブロック図を示す。図5に示すように、音声認識サーバ4は、音声認識部40と、通信インターフェース41とを備える。音声認識サーバ4は、一例として、クラウド、オンプレミス等の比較的計算資源が多い環境から構成される。
音声認識部40は、通信インターフェース41を介して受信した音声データに基づいて、発話者の声を認識して、文字列からなる音声認識データに変換する機能を有する。また、音声認識部40は、通信インターフェース41を介して、音声認識データをログ管理サーバ2に送信する。
通信インターフェース41は、ネットワーク5を用いたデータの通信を行うインターフェースであり、音声認識部40により制御される。本実施形態においては、通信インターフェース41は、音声認識部40により出力される音声認識データをネットワーク5を介してログ管理サーバ2に送信する機能を有する。
ユーザが使用するパーソナルコンピュータ(PC)5は、コンピュータ本体、ディスプレイ、キーボード、およびマウス等を備えており、ネットワーク5を介して、ログ管理サーバ2にアクセス可能となっている。パーソナルコンピュータ5は、ログ管理サーバ2から表示データを受信することにより、備忘録作成システム1の操作画面、ログ管理画面をディスプレイに表示することができる。また、パーソナルコンピュータ5は、キーボード等を用いて、備忘録作成システム1の操作画面に、発話者の名前等を入力することができる。
(データ構造)
次に、図6から図8を参照しつつ、本実施形態の備忘録作成システム1において用いられるデータの構造について説明する。図6は、音声データを含む送受信データの構造を示す模式図である。図7は、発話者に関する情報を示す発話者データの構造を示す模式図である。図8は、備忘録のログデータの構造を示す模式図である。
スマートスピーカ3は、発話者の発話区間を検出すると、図6に示す構造の送受信データDT1をログ管理サーバ2に送信する。送受信データDT1は、図6に示すように、角度情報DT11、タイムスタンプDT12、および音声データDT13から構成されている。
後述する事前登録処理においては、発話者ごとに発話を行い、ユーザのパーソナルコンピュータ6において、それぞれの発話者の名前を入力する。入力した名前は、ログ管理サーバ2により、図7に示す発話者データDT2としてデータ記録部21に記録される。発話者データDT2は、図7に示すように、角度情報データDT21、話者IDデータDT22、および名前データDT23から構成されている。なお、角度情報データDT21は、スマートスピーカ3から見た所定の方向を0度として設定し、その方向から、発話が検出された方向までの角度を表している。
後述する備忘録作成処理が開始されると、ログ管理サーバ2により、図8に示すログデータDT3がデータ記録部21に記録される。ログデータDT3は、図8に示すように、備忘録IDデータDT31、タイムスタンプDT32、話者IDデータDT33、音声データアドレスDT34、およびテキストデータアドレスDT35から構成される。音声データアドレスDT34とは、音声データDT13が記録されたデータ記録部21の記憶領域のアドレスを示す。また、テキストデータアドレスDT35は、音声データDT13を音声認識によりテキスト化したテキストデータが記録されたデータ記録部21の記憶領域のアドレスを示す。
(事前登録処理)
次に、本実施形態の備忘録作成システム1における事前登録処理について、図9のシーケンス図、並びに図11および図12の画面表示例を参照しつつ説明する。図9は、本実施形態における事前登録処理の流れを示すシーケンス図である。図11および図12は、事前登録処理の際に、ユーザのパーソナルコンピュータ6において表示される画面の例を示す図である。
ユーザがパーソナルコンピュータ6により、備忘録作成システム1にアクセスすると、図11に示す開始方法の選択画面100が表示される。開始方法の選択画面100には、「事前に情報を入力」と記載された事前登録処理開始ボタン101が表示されており、ユーザが事前登録処理開始ボタン101を選択することにより、事前登録処理が開始される(図9:S1)。
事前登録処理が開始されると、事前登録開始要求がパーソナルコンピュータ6からログ管理サーバ2に送信される(図9:S2)。ログ管理サーバ2は、事前登録開始要求を受信すると、スマートスピーカ3に対して、事前登録開始要求を送信する(図9:S3)。スマートスピーカ3は、事前登録開始要求を受信すると、発話区間の検出処理を開始する(図9:S4)。ここで、一人の発話者が発話を行うと、スマートスピーカ3は発話区間を検出し、角度情報DT11、タイムスタンプDT12、および音声データDT13を含む送受信データDT1をログ管理サーバ2に送信する(図9:S5)。
ログ管理サーバ2は、送受信データDT1を受信すると、角度情報DT11、タイムスタンプDT12、および音声データDT13をデータ記録部21に記録する(図9:S6)。次に、ログ管理サーバ2は、音声データDT13と音声認識開始要求を音声認識サーバ4に送信する(図9:S7)。
音声認識サーバ4は、音声データDT13と音声認識開始要求を受信すると、音声認識処理を行う(図9:S8)。音声認識サーバ4は、音声認識処理が完了すると、音声認識データをログ管理サーバ2に送信する(図9:S9)。
ログ管理サーバ2は、音声認識を受信すると、表示用のテキストデータ作成処理を行う(図9:S10)。ログ管理サーバ2は、テキストデータの作成処理を完了すると、発話が行われた際のタイムスタンプDT12および角度情報DT11と共に、テキストデータをユーザのパーソナルコンピュータ6に送信する(図9:S11)。
ユーザがパーソナルコンピュータ6において表示事前登録処理開始ボタン101を選択した後は、パーソナルコンピュータ6には、図12に示す事前登録画面200が表示される。事前登録画面200には、収録情報入力欄201と参加者情報入力欄202が表示されており、ユーザはパーソナルコンピュータ6により、収録情報入力欄201に会議の名前、開始日時等を入力する。また、ユーザは参加者情報入力欄202に、参加者の名前を入力する(図9:S12)。
パーソナルコンピュータ6は、ログ管理サーバ2から、タイムスタンプDT12、角度情報DT11、およびテキストデータを受信すると、参加者情報入力欄202に角度DT11に基づく角度を表示させる(図9:S13)。なお、図12には図示を省略するが、参加者情報入力欄202の下方には、テキストデータに基づくテキストと、タイムスタンプDT12に基づく発話時間も表示される。
ユーザは、参加者情報入力欄202に表示される角度を確認し、正しい角度で発話が検出されていると確認した場合には、図12には図示を省略する確定ボタンを選択する(図9:S13)。なお、参加者情報入力欄202に表示される角度が正しくない場合には、発話者にもう一度発話させ、図9のステップS4からステップS13までの処理を行う。
ユーザが確定ボタンを選択すると、パーソナルコンピュータ6は、参加者情報入力欄202に入力された名前のデータおよび角度情報DT11と共に、ログ管理サーバ2に対して、話者ID登録要求を送信する(図9:S15)。
ログ管理サーバ2は、話者ID登録要求を受信すると、任意に決定した話者IDと、角度情報DT11と、名前のデータとを紐付けるため、これらのデータを図7に示す発話者データDT2としてデータ記録部21に記録する(図9:S16)。
以下、図9のステップS4からステップS16までの処理を全ての参加者について行い、ユーザが全ての参加者についての名前登録が終了したと判断した場合には、図12には図示を省略する終了ボタンを選択し、事前登録処理を終了させる(図9:S17)。
(備忘録作成処理)
次に、本実施形態の備忘録作成システム1における備忘録作成処理について、図10のシーケンス図、並びに図13および図14の画面表示例を参照しつつ説明する。図10は、本実施形態における備忘録作成処理の流れを示すシーケンス図である。図12および図13は、備忘録作成処理の際に、ユーザのパーソナルコンピュータ6において表示される画面の例を示す図である。
ユーザがパーソナルコンピュータ6により、終了ボタンを選択し、事前登録処理を終了させると、パーソナルコンピュータ6には、図13に示すメッセージログ画面300が表示され、備忘録作成処理が開始される(図10:S20)。
備忘録作成処理が開始されると、備忘録作成開始要求がパーソナルコンピュータ6からログ管理サーバ2に送信される(図10:S21)。ログ管理サーバ2は、備忘録作成開始要求を受信すると、スマートスピーカ3に対して、備忘録作成開始要求を送信する(図10:S22)。スマートスピーカ3は、備忘録作成開始要求を受信すると、発話区間の検出処理を開始する(図10:S23)。これ以降は、ここで、スマートスピーカ3は発話区間を開始し、発話者の発話区間を検出する度に、角度情報DT11、タイムスタンプDT12、および音声データDT13を含む送受信データDT1をログ管理サーバ2に送信する(図10:S24)。
ログ管理サーバ2は、送受信データDT1を受信すると、角度情報DT11、タイムスタンプDT12、および音声データDT13をデータ記録部21に記録する(図10:S25)。ログ管理サーバ2は、備忘録作成開始要求を受信した際に、任意に備忘録IDを決定し、ログデータDT3として備忘録IDデータDT31をデータ記録部21に記録する。また、ログ管理サーバ2は、スマートスピーカ3から受信した角度情報DT11に基づいて、発話者データDT2から該当する話者IDデータDT22を読み取り、ログデータDT3の話者IDデータDT33としてデータ記録部21に記録する。さらに、ログ管理サーバ2は、スマートスピーカ3から受信したタイムスタンプDT12をログデータDT3のタイムスタンプDT33としてデータ記録部21に記録する。そして、ログ管理サーバ2は、スマートスピーカ3から受信した音声データDT13をデータ記録部21に記録し、そのアドレスをログデータDT3の音声データアドレスDT34としてデータ記録部21に記録する。
次に、ログ管理サーバ2は、音声データDT13と音声認識開始要求を音声認識サーバ4に送信する(図10:S26)。音声認識サーバ4は、音声データDT13と音声認識開始要求を受信すると、音声認識処理を行う(図10:S27)。音声認識サーバ4は、音声認識処理が完了すると、音声認識データをログ管理サーバ2に送信する(図10:S28)。
ログ管理サーバ2は、音声認識を受信すると、表示用のテキストデータ作成処理を行う(図10:S29)。ログ管理サーバ2は、テキストデータの作成処理を完了すると、テキストデータをデータ記録部21に記録し、そのアドレスをログデータDT3のテキストデータアドレスDT35としてデータ記録部21に記録する。
次に、ログ管理サーバ2は、発話が行われた際のタイムスタンプDT12、角度情報DT11、および発話者の名前を含む表示データをユーザのパーソナルコンピュータ6に送信する(図10:S31)。
備忘録作成処理が開始されると(図10:S20)、ユーザのパーソナルコンピュータ6には、図13に示すメッセージログ画面300が表示される(図10:S32)。メッセージログ画面300には、タイムスタンプDT12に基づく発話した時間情報301が表示され、時間情報301の右横には、吹き出し302が表示される。吹き出し302内には、発話者の名前303、テキストデータに基づくテキスト304が表示される。また、吹き出し302内には、再生ボタン305が表示される。
ユーザが再生ボタン305を選択すると(図10:S33)、パーソナルコンピュータ6は、タイムスタンプDT12、および発話者の名前と共に、音声データの再生要求を、ログ管理サーバ2に送信する(図10:S34)。
ログ管理サーバ2は、タイムスタンプDT12および発話者の名前を受信すると、ログデータDT3から該当する音声データのアドレスDT34を読み出し、該当するアドレスの音声データをデータ記録部21から読み出す。
ログ管理サーバ2は、読み出した音声データをスマートスピーカ3に送信し(図10:S35)、音声データを受信したスマートスピーカ3は、音声の再生を行う(図10:S36)。したがって、ユーザは、メッセージログ画面300において、発話者の発言をテキストで確認できると共に、その時の音声を確認することができる。なお、音声の再生は、スマートスピーカ3ではなく、パーソナルコンピュータ6において行ってもよい。
以下、図10のステップS23からステップS32までの処理を繰り返し、例えば会議が終了した場合に、図示を省略する備忘録作成終了ボタンを選択することにより、備忘録作成処理が終了する(図10:S37)。
本実施形態の備忘録作成システム1においては、以上のようにして、複数の備忘録の作成が可能であり、ユーザが図11に示す開始方法の選択画面100において、「既存の収録を閲覧」と記載された閲覧ボタン102を選択すると、パーソナルコンピュータ6には、図14に示す備忘録の一覧画面400が表示される。
備忘録の一覧画面400には、会議の名前401、日時402、参加者名403が表示されており、ユーザは、備忘録の一覧画面400を見ることにより、容易に所望の備忘録を確認することができる。また、備忘録の一覧画面400には、閲覧ボタン404が表示されており、ユーザが閲覧ボタン404を選択することにより、パーソナルコンピュータ6には、該当する備忘録のメッセージログ画面300が表示される。
以上のように、本実施形態の備忘録作成システム1によれば、会議の場にスマートスピーカ3を置いておくだけで、備忘録の作成が可能になり、発話者ごとにマイクをセッティングする等の手間を省くことができる。
また、スマートスピーカ3は、360度音を拾うことが可能であり、備忘録作成システム1により発話者の識別が可能になるので、参加者は会議に集中することができる。
さらに、本実施形態の備忘録作成システム1によれば、音声認識により自動的に音声のテキスト化を行うが、テキスト情報は、インデックスとして使用することができ、テキストに対応した実際の音声情報そのものを備忘録として提供することができる。
従って、本実施形態の備忘録作成システム1によれば、インデックス化されたテキスト情報に基づいて、ある程度、会議の内容を確認することが可能であり、さらに、必要に応じて、実際の発言内容そのものを確認することができる。
(第2実施形態)
次に、本発明の第2実施形態について図面を参照しつつ説明する。図15は、本実施形態におけるスマートスピーカ3の機能を説明するための機能ブロック図である。図16は、本実施形態における備忘録作成システム1を示す図である。
第1実施形態においては、ログ管理サーバ2に記録制御部20とデータ記録部21を設けた態様について説明したが、本発明はこのような態様に限定される訳ではなく、図15に示すように、スマートスピーカ3に記録制御部36とデータ記録部37を設けてもよい。
また、図16に示すように、データ記録部21をネットワーク5に接続し、ログ管理サーバ2からネットワーク5を介してデータ記録部21にアクセスできるようにしてもよい。この場合には、記録制御部20をログ管理サーバ2に設けておけばよい。また、データ記録部21を、外付けの記録媒体として有線または無線によりログ管理サーバ2に接続するようにしてもよい。
本実施形態によれば、第1実施形態と同様に、インデックス化されたテキスト情報に基づいて、会議の内容を確認することが可能で、必要に応じて実際の発言内容そのものを確認可能な備忘録を容易に作成できるだけでなく、ユーザのニーズまたは設備に応じて、備忘録作成システム1を構築することができる。
(第3実施形態)
次に、本発明の第3実施形態について図面を参照しつつ説明する。図17は、本実施形態における備忘録作成システム1を説明するための図である。
上述した実施形態では、備忘録作成システム1にスマートスピーカ3を1台のみ設けた態様について説明した。しかしながら、本実施形態は、備忘録作成システム1に複数台のスマートスピーカ3を設ける態様について説明する。
図17は、備忘録作成システム1に2台のスマートスピーカ3を設けた例を示している。例えば、会議室が広く参加人数が多い場合等においては、スマートスピーカ3が1台だけしか設けられていないと、発話者とマイクとの距離が物理的に遠くなり、認識精度が低下する。そこで、複数のスマートスピーカ3を設置することにより、発話者とマイクとの距離を適切に保ち、認識精度の低下を防ぐことができる。
また、例えば、会議室が同一空間ではなく、それぞれ別室に分かれている場合、あるいは、テレビ会議等のように遠隔地の参加者と会議等を行う場合にも、本実施形態は適用することができる。
上述したいずれの場合においても、本実施形態によれば、スマートスピーカ3を複数台設けることにより、単一の備忘録を残すことができる。
本実施形態においては、複数台のスマートスピーカ3のそれぞれに、例えば機器IDを付与して、それぞれのスマートスピーカ3を識別すればよい。
また、図17に示す例では、2台のスマートスピーカ3を設けたが、本発明はこのような態様に限定されるものではなく、3台以上の複数台のスマートスピーカ3を設けてもよい。
さらに、本実施形態に用いられるスマートスピーカ3は、第1実施形態で説明したスマートスピーカ3だけでなく、第2実施形態で説明したスマートスピーカ3を用いることも可能である。
以上のように、本実施形態の備忘録作成システム1によれば、会議の場に複数台のスマートスピーカ3を置いておくだけで、単一の備忘録の作成が可能になり、発話者ごとにマイクをセッティングする等の手間を省くことができる。
また、スマートスピーカ3は、360度音を拾うことが可能であり、備忘録作成システム1により発話者の識別が可能になるので、参加者は会議に集中することができる。
さらに、本実施形態の備忘録作成システム1によれば、音声認識により自動的に音声のテキスト化を行うが、テキスト情報は、インデックスとして使用することができ、テキストに対応した実際の音声情報そのものを備忘録として提供することができる。
従って、本実施形態の備忘録作成システム1によれば、インデックス化されたテキスト情報に基づいて、ある程度、会議の内容を確認することが可能であり、さらに、必要に応じて、実際の発言内容そのものを確認することができる。
(変形例)
上述した各実施形態においては、メッセージログ画面300において、吹き出し302ごとに音声を再生する態様について説明したが、本発明はこのような態様に限定される訳ではない。例えば、再生を選択した吹き出し302以降の全ての吹き出し302に対応する音声を連続的に再生してもよいし、同一の発話者の吹き出し302に対応する音声を連続的に再生してもよい。
上述した実施形態においては、表示装置の一例として、パーソナルコンピュータ6のディスプレイを用い、このディスプレイ上に、図11から図14に示す画面を表示させる態様について説明した。また、音声入力装置の例としては、スマートスピーカ3を用いた態様について説明した。本発明の別の変形例としては、このディスプレイのような表示装置に、音声入力装置を内蔵するようにしてもよい。この場合には、発話区間抽出部を表示装置または音声認識サーバに備える必要がある。
音声入力装置は、上述したスマートスピーカ3や表示装置に内蔵した音声入力装置を用いることができるが、本発明はこのような態様に限定される訳ではなく、例えばヘッドセットなどの単一のユーザが用いる音声入力装置と併用することも可能である。この場合には、ヘッドセットなどの音声入力装置に機器IDを付与して識別すればよい。
以上の態様に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、通信網を介した配信の形態で前述のプログラムを提供してコンピュータにインストールすることも可能である。
以上、本発明の実施形態に係る備忘録作成システム、備忘録作成方法、およびプログラムについて説明したが、本発明は、これに限定されるものではなく、本発明の要旨を逸脱しない範囲で、種々の変更が可能である。
1 備忘録作成システム
2 ログ管理サーバ
3 スマートスピーカ
4 音声認識サーバ
5 ネットワーク
6 パーソナルコンピュータ
20 記録制御部
21 データ記録部
22 テキストデータ作成部
23 出力制御部
24 再生制御部
25 通信インターフェース
30 多チャンネルマイクロフォンアレイ
31 音源定位部
32 発話区間抽出部
33 データ出力部
34 再生部
35 通信インターフェース
40 音声認識部
41 通信インターフェース
100 開始方法の選択画面
200 事前登録画面
300 メッセージログ画面
400 備忘録の一覧画面

Claims (7)

  1. 音声入出力装置と、データ記録部と、音声データ送信部と、音声認識サーバと、ログ管理サーバと、を備える備忘録作成システムであって、
    前記音声入出力装置は、
    多チャンネルマイクロフォンアレイと、
    3次元空間における音源定位を行う音源定位部と、
    発話区間を抽出する発話区間抽出部と、
    前記発話区間の音声データと、タイムスタンプと、発話者の位置を示す角度情報とを出力するデータ出力部と、を備え、
    前記データ記録部は、
    前記発話区間の音声データを、前記タイムスタンプおよび前記角度情報と対応付けて記録し、さらに、前記発話区間の音声データをテキスト化したテキストデータを、前記発話区間の音声データに対応付けて記録し、
    前記音声データ送信部は、
    前記データ記録部に記録された前記発話区間の音声データを前記音声認識サーバに送信し、
    前記音声認識サーバは、
    前記発話区間の音声データを受信する音声データ受信部と、
    受信した前記発話区間の音声データの音声認識を行う音声認識部と、
    前記音声認識の結果としての前記発話区間の認識データを送信する認識データ送信部と、を備え、
    前記ログ管理サーバは、
    前記音声認識サーバから音声認識による前記発話区間の認識データを受信する認識データ受信部と、
    前記発話区間ごとの認識データからテキストデータを作成するテキストデータ作成部と、
    前記テキストデータを、前記発話区間の音声データをテキスト化したテキストデータとして、前記発話区間の音声データに対応付けて前記データ記録部に記録させる記録制御部と、
    前記テキストデータを、前記タイムスタンプおよび前記発話者と対応付け、選択により前記テキストデータに対応する前記発話区間の音声データを再生可能に表示装置に出力する出力制御部と、
    前記表示装置において、前記発話区間の音声データの再生が選択された場合には、前記音声入出力装置に前記発話区間の音声データの再生を指示する再生制御部と、を備える、備忘録作成システム。
  2. 前記データ記録部は、前記音声入出力装置に設けられている、
    請求項1に記載の備忘録作成システム。
  3. 前記データ記録部は、前記ログ管理サーバと通信可能に前記ログ管理サーバに接続されている、
    請求項1に記載の備忘録作成システム。
  4. 前記データ記録部は、前記ログ管理サーバと通信可能にネットワークに接続されている、
    請求項1に記載の備忘録作成システム。
  5. 前記音声入出力装置は、複数台設けられている、
    請求項1に記載の備忘録作成システム。
  6. 音声入出力装置と、データ記録部と、音声データ送信部と、音声認識サーバと、ログ管理サーバと、を備える備忘録作成システムによる備忘録作成方法であって、
    前記音声入出力装置の多チャンネルマイクロフォンアレイにより音声を入力するステップと、
    前記音声入出力装置の音源定位部により、3次元空間における音源定位を行うステップと、
    前記音声入出力装置の発話区間抽出部により、発話区間を抽出するステップと、
    前記音声入出力装置のデータ出力部により、前記発話区間の音声データと、タイムスタンプと、発話者の位置を示す角度情報とを出力するステップと、
    前記データ記録部により、前記発話区間の音声データを、前記タイムスタンプおよび前記角度情報と対応付けて記録するステップと、
    前記データ記録部により、前記発話区間の音声データをテキスト化したテキストデータを、前記発話区間の音声データに対応付けて記録するステップと、
    前記音声データ送信部により、前記データ記録部に記録された前記発話区間の音声データを前記音声認識サーバに送信するステップと、
    前記音声認識サーバの音声データ受信部により、前記発話区間の音声データを受信するステップと、
    前記音声認識サーバの音声認識部により、受信した前記発話区間の音声データの音声認識を行うステップと、
    前記音声認識サーバの認識データ送信部により、前記音声認識の結果としての前記発話区間の認識データを送信するステップと、
    前記ログ管理サーバの認識データ受信部により、前記音声認識サーバから音声認識による前記発話区間の認識データを受信するステップと、
    前記ログ管理サーバのテキストデータ作成部により、前記発話区間ごとの認識データからテキストデータを作成するステップと、
    前記ログ管理サーバの記録制御部により、前記テキストデータを、前記発話区間の音声データをテキスト化したテキストデータとして、前記発話区間の音声データに対応付けて前記データ記録部に記録させるステップと、
    前記ログ管理サーバの出力制御部により、前記テキストデータを、前記タイムスタンプおよび前記発話者と対応付け、選択により前記テキストデータに対応する前記発話区間の音声データを再生可能に表示装置に出力するステップと、
    前記表示装置により、前記発話区間の音声データの再生が選択された場合には、前記ログ管理サーバの再生制御部により、前記音声入出力装置に前記発話区間の音声データの再生を指示するステップと、を備える、
    備忘録作成システムの備忘録作成方法。
  7. 音声入出力装置と、データ記録部と、音声データ送信部と、音声認識サーバと、ログ管理サーバと、を備える備忘録作成システムにおける前記ログ管理サーバのプログラムであって、前記プログラムは、前記ログ管理サーバのコンピュータに、
    前記音声認識サーバから音声認識による前記発話区間の認識データを受信するステップと、
    前記発話区間ごとの認識データからテキストデータを作成するステップと、
    前記テキストデータを、前記発話区間の音声データをテキスト化したテキストデータとして、前記発話区間の音声データに対応付けて前記データ記録部に記録させるステップと、
    前記テキストデータを、前記タイムスタンプおよび前記発話者と対応付け、選択により前記テキストデータに対応する前記発話区間の音声データを再生可能に表示装置に出力するステップと、
    前記表示装置により、前記発話区間の音声データの再生が選択された場合には、前記音声入出力装置に前記発話区間の音声データの再生を指示するステップと、を実行させる、
    備忘録作成システムにおけるログ管理サーバのプログラム。
JP2019185652A 2018-10-11 2019-10-09 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム Pending JP2020064300A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018192902 2018-10-11
JP2018192902 2018-10-11

Publications (1)

Publication Number Publication Date
JP2020064300A true JP2020064300A (ja) 2020-04-23

Family

ID=70387242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019185652A Pending JP2020064300A (ja) 2018-10-11 2019-10-09 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム

Country Status (1)

Country Link
JP (1) JP2020064300A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理系统、信息处理方法以及程序
JP2022077880A (ja) * 2020-11-12 2022-05-24 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022077880A (ja) * 2020-11-12 2022-05-24 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理系统、信息处理方法以及程序
CN114509157B (zh) * 2020-11-17 2024-04-05 丰田自动车株式会社 信息处理系统、信息处理方法以及程序

Similar Documents

Publication Publication Date Title
JP6463825B2 (ja) 多重話者音声認識修正システム
JP4295846B2 (ja) 音声装置及び音声装置の自己初期化方法
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP6725006B2 (ja) 制御装置および機器制御システム
CN109257659A (zh) 字幕添加方法、装置、电子设备及计算机可读存储介质
JP6716300B2 (ja) 議事録生成装置、及び議事録生成プログラム
JP6430137B2 (ja) 音声書起支援システム、サーバ、装置、方法及びプログラム
JP2020064300A (ja) 備忘録作成システム、備忘録作成方法、および備忘録作成システムのログ管理サーバのプログラム
JP2006330170A (ja) 記録文書作成支援システム
KR101727587B1 (ko) 디지털 녹취 파일 녹취록 생성 방법
JP2023134548A (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP6172770B2 (ja) 要約筆記支援システム、情報配信装置、要約筆記支援方法、及びプログラム
KR102472921B1 (ko) 음향 신호를 사용자 인터페이스에 시각적으로 표시하는 사용자 인터페이싱 방법 및 장치
JP7331645B2 (ja) 情報提供方法および通信システム
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
KR20160129203A (ko) 무결성 디지털 녹취 파일 생성 방법
JP4353084B2 (ja) 映像再生方法及び装置及びプログラム
WO2018100742A1 (ja) コンテンツ再生機器、コンテンツ再生システム、及びコンテンツ再生機器の制御方法
JP5326539B2 (ja) 留守番電話システム、留守番電話サービスサーバ及び留守番電話サービス方法
KR101562901B1 (ko) 대화 지원 서비스 제공 시스템 및 방법
JP7087745B2 (ja) 端末装置、情報提供システム、端末装置の動作方法および情報提供方法
JP2010060729A (ja) 受付装置、受付方法、及び受付プログラム
JP2022048516A (ja) 情報処理装置、プログラム、および情報処理方法
KR101074018B1 (ko) 학습 보조 장치

Legal Events

Date Code Title Description
AA64 Notification of invalidation of claim of internal priority (with term)

Free format text: JAPANESE INTERMEDIATE CODE: A241764

Effective date: 20191112