JP2022020499A - 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 - Google Patents
議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 Download PDFInfo
- Publication number
- JP2022020499A JP2022020499A JP2020124029A JP2020124029A JP2022020499A JP 2022020499 A JP2022020499 A JP 2022020499A JP 2020124029 A JP2020124029 A JP 2020124029A JP 2020124029 A JP2020124029 A JP 2020124029A JP 2022020499 A JP2022020499 A JP 2022020499A
- Authority
- JP
- Japan
- Prior art keywords
- minutes
- speaker
- data
- service
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 66
- 230000008569 process Effects 0.000 claims abstract description 62
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 86
- 230000008451 emotion Effects 0.000 claims description 52
- 238000003058 natural language processing Methods 0.000 claims description 29
- 238000012937 correction Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】話者認識等の高度な処理を伴う議事録生成が可能なシステム等を提供することができる。【解決手段】議事録生成装置は、所定のネットワークと接続して通信を行う、通信手段と、外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、音声情報に基づき議事録データを生成する、議事録データ生成部と、外部出力手段と接続され、外部出力手段へと議事録データを出力する、第2の接続手段と、を備える。議事録データ生成部は、ネットワークを介して提供されるテキスト化処理を利用して、音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、文字データと話者情報に基づいて議事録データを生成する、統合処理部と、を備える。【選択図】図14
Description
本発明は、議事録生成装置、議事録生成装置の制御方法、議事録生成装置の制御に用いるコンピュータプログラム、及び、その記録媒体に関する。
近年の音声解析技術の向上に伴って、会議において議事録を自動的に作成するための機器やソフトウェアが開発されている。さらに、議事録作成の関連技術の開発も進んでおり、例えば、特許文献1には、音声認識技術と機械翻訳技術とを用いた議事録作成システムが開示されている。
また、近年、一つのシステムを互いに独立な小単位のコンポーネントの集合として設計するマイクロサービスアーキテクチャが注目を集めつつある。マイクロサービスアーキテクチャによれば、処理速度の向上や各コンポーネント単位での変更の容易化等のメリットが得られる。なお、マイクロサービスアーキテクチャは、例えばkubernates等のコンテナオーケストレーション技術を利用して実装されることがある。
しかしながら、特許文献1に開示された議事録作成システムによれば、専用機器や専用ソフトを動作させるパソコン等の環境が必要であり、これらのシステム負荷が高く、簡易に利用することが難しかった。
そのため、従来の議事録作成システムを会議において利用しようとする場合、利用者は、予め議事録作成ソフトウェアをダウンロードし、会議前に当該ソフトウェアを起動すると共にパソコンをマイクやディスプレイ等に接続し、さらに、会議中に当該ソフトウェアをパソコン上で実行し続ける必要があった。
しかしながら、この一連の工程は、議事録作成システムの利用者にとって手間であり、また、一定の情報技術に対する知識を要求するため、場合によっては導入の妨げの一因となっていた。また、参加者のパソコンの一部資源を会議の間占有することもあり、参加者のパソコンへの一定の負荷となっていた。特に、音声に対して話者認識処理や高度の自然言語処理等を行う高度な議事録生成処理を行う場合には、この負荷は軽視できないものであった。
本発明は、上述の課題を解決するためになされたものであり、その目的とするところは、手間なく容易に利用することができ、会議参加者のパソコン等を占有せず、かつ、話者認識等の高度な処理を伴う議事録生成が可能なシステム等を提供することにある。
上述の課題は、以下の構成を有する議事録生成装置等により解決することができる。
すなわち、本発明の一態様に係る議事録生成装置は、所定のネットワークと接続して通信を行う、通信手段と、外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、音声情報に基づき議事録データを生成する、議事録データ生成部と、外部出力手段と接続され、外部出力手段へと議事録データを出力する、第2の接続手段と、を備える。議事録データ生成部は、ネットワークを介して提供されるテキスト化処理を利用して、音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、文字データと話者情報に基づいて議事録データを生成する、統合処理部と、を備える。
本発明の一態様によれば、議事録生成装置は、外部音声入力手段(マイク)から音声情報を取得する第1の接続手段、及び、外部出力手段(ディスプレイ)へと議事録データを出力する第2の接続手段に加えて、取得された音声情報から議事録データを生成する議事録データ生成部を備える。このように外部音声入力手段や外部出力手段を備えないため、議事録生成装置のハードウェア構成を簡略化することができる。また、議事録生成装置が、音声情報に基づいて議事録データを生成し外部出力手段へと出力するまでを行うことから、会議参加者のパソコンの一部資源等を会議の間占有することがない。
さらに、議事録データ生成部においては、ネットワークを介して提供される処理を用いた文字データ生成部及び話者認識部によって、文字データ及び話者情報が生成され、統合処理部は、文字データ及び話者情報の統合を行う。そのため、文字データ生成や話者認識のような処理はネットワークを介した処理により行われるため、議事録生成装置において負荷の高い処理は行われない。
したがって、ハードウェア構成が簡略化されているのに加えて、負荷の高い処理が行われない議事録生成装置を用いることによって、装置コストが下がり、議事録生成装置の導入が容易となる。また、会議参加者のパソコン等を占有せず、かつ、話者認識等の高度な処理を伴う議事録生成が可能なシステム等を提供することができる。
以下、図面を参照して、本発明の実施形態について説明する。
図1は、本実施形態の議事録生成装置を備えるシステムを示す斜視図である。また、図2は、議事録生成装置に関連するシステムの構成を示すブロック図である。
図1に示されるように、会議室などのローカル環境10に配置された議事録生成装置11は、取得した音声を解析して議事録を生成する機器である。議事録生成装置11は、無線で接続されたLAN12を介してローカル環境10の外部と通信可能に構成される。また、議事録生成装置11は、外部機器であるマイク13及びディスプレイ14と接続されている。なお、マイク13は、スピーカーと一体となったものであってもよい。また、議事録生成装置11と、マイク13、及び、ディスプレイ14との接続は、有線に限らず無線を介して接続されてもよく、有線を介した接続は安定性が高く、無線を介した接続はユーザの利便性が高い。
さらに、議事録生成装置11は、入力機器15と接続されている。入力機器15は、ユーザの入力を受け付ける機器であって、図示された例においてはキーボードであるが、他の例として、マウスやコントローラであってもよく、種々の形態であってもよい。議事録生成装置11は、例えば、初期設定時等において入力機器15からの入力情報に基づいた設定を行うことができる。
図2に示されるように、ローカル環境10に設けられるLAN12はローカル環境10外のWAN20と接続されている。これにより、議事録生成装置11は、LAN12及びWAN20を介してクラウド上のサーバ21にアクセス可能に構成されている。
議事録生成装置11は、サーバ21により提供される処理を用いて、マイク13により取得される音声データを解析して文字データの作成(文字起し)を行う。このように、負荷の高い処理等は、議事録生成装置11ではなくサーバ21の資源を用いて行われる。
議事録生成装置11は、マイク13、ディスプレイ14及び入力機器15が外付けされるとともに、負荷の高い処理をサーバ21にて行う極めて簡易な構成である。なお、議事録生成装置11と、マイク13、ディスプレイ14及び入力機器15との接続は、HDMI(登録商標)、USB、WiFi、Bluetooth等の種々の方式によって接続されてもよい。
図3は、議事録生成装置11のハードウェア構成図である。
議事録生成装置11は、全体を制御するCPU(Central Processing Unit)及びGPU(Graphics Processing Unit)により構成される制御部31と、ROM(Read Only Memory)、RAM(Random Access Memory)、及び/又はハードディスク等により構成され、プログラムや各種のデータ等を記憶する記憶部32と、外部機器とのデータの入出力を行う入出力ポート33と、LAN12等を介して通信を行う通信部34と、入力機器15からの入力を受け付ける入力部35と、を備える。制御部31、記憶部32、入出力ポート33、通信部34、及び、入力部35は、バス接続により互いに通信可能に構成されている。なお、図1に示される例では、マイク13及びディスプレイ14は、入出力ポート33と接続されることで、議事録生成装置11との間でデータのやりとりを行うことができるが、これらの機器が無線を介して接続される場合でも仮想的に構成される入出力ポート33と論理的に接続される。
図4、5は、議事録生成装置11のソフトウェア構成図である。本実施形態においては、コンテナ技術によりそれぞれのアプリケーションがコンテナ化されるとともに、オーケストレーションツールによりハードウェアリソースの管理がされている。図4には、このような構成における一般的なプログラム構成が示されている。図5には、本実施形態の具体的なプログラム構成が示されている。なお、これらのソフトウェア構成は、議事録生成装置11の記憶部32にプログラムが記憶されることで、実現されている。
図4に示されるように、議事録生成装置11には、オペレーションシステム(OS)41がインストールされている。さらに、OS41には、コンテナ環境の構築及びコンテナ環境におけるアプリケーションの実行を行うコンテナエンジン42、及び、コンテナ環境のハードウェアリソースを管理するオーケストレーションツール43が設けられている。
コンテナエンジン42は、ハードウェアリソース等を仮想化することで論理的なコンテナ領域を形成する。そして、アプリケーションは、コンテナ環境での動作に用いるライブラリと一体的に構成されている。その結果、コンテナ化されたアプリケーションは、コンテナ領域で動作する。
なお、このようなアプリケーションとライブラリとを一体的に構成することを、コンテナ化と称することがある。また、コンテナ化されたアプリケーションは、単にコンテナと称されることもある。このように、コンテナエンジン42を導入することでコンテナ環境が構築され、このコンテナ環境においてコンテナ化されたアプリケーションの実行が可能となる。
オーケストレーションツール43は、コンテナエンジン42によって仮想化されたハードウェアリソースを管理(オーケストレーション)する。
詳細には、オーケストレーションツール43は、コンテナ化されたアプリケーションが実行される環境として、クラスタ44と称される論理領域を構築する。クラスタ44には、クラスタ44の全体を管理するマスタ45と、アプリケーションの実行環境であるノード46とが設けられる。マスタ45は、コンテナ47の実行環境であるノード46のハードウェアリソースの管理を行う。
ノード46においては、アプリケーションがライブラリと一体となって構成されるコンテナ47が設けられ、1以上のコンテナ47(図4においては2つのコンテナ47)が、ポッド48という単位で管理されている。なお、ポッド48は、1または2以上のコンテナ47により構成される。ポッド48は、ノード46内においてポッド管理ブロック49によって管理される。なお、ポッド管理ブロック49は、マスタ45からの指示に従って、ノード46におけるリソース管理を行う。
このように、コンテナエンジン42及びオーケストレーションツール43が導入された環境においては、コンテナ化されたアプリケーションはポッド48の単位で管理される。そして、ポッド48は、クラスタ44内のノード46において実行される。なお、コンテナ化されていないアプリケーション(図4において不図示)は、クラスタ44のリソースを用いずに動作されてもよい。このようなコンテナ化されていないアプリケーションは、クラスタ44内のポッド48と双方向に通信することができる。なお、本実施形態においては、クラスタ44内に1つのノード46が設けられる例について説明したが、これに限らない。クラスタ44内に複数のノード46が設けられてもよい。
図5は、本実施形態におけるソフトウェア構成の詳細を示す図である。
この図においては、ノード46内に、所定の機能を有するポッド48として、外部機器検出サービス51、音声入力サービス52、映像出力サービス53、設定サービス54、文字データ生成サービス55、話者識別サービス56、統合サービス57、自然言語処理サービス58、及び、感情解析サービス59が設けられている。外部機器検出サービス51乃至感情解析サービス59は、図4に示されるようなコンテナ47がオーケストレーションされながら実行する環境において、提供されるアプリケーションの単位であって、マイクロサービスと称されることもある。
また、機械学習に関するプログラムは、クラスタ44の外に設けられる。詳細には、ニューラルネットワークライブラリ60は、コンテナ化されずにOS41上に配置されて、コンテナ化された外部機器検出サービス51乃至感情解析サービス59と相互に通信することができる。
以下では、外部機器検出サービス51乃至感情解析サービス59の詳細な構成について説明する。なお、これらの処理において、文字データ生成サービス55、話者識別サービス56、自然言語処理サービス58、及び、感情解析サービス59は、その処理をサーバ21におけるエンジンを用いて行うものとする。
外部機器検出サービス51は、予め入出力ポート33と接続されうる外部機器をリスト化して記憶している。そして、外部機器検出サービス51は、入出力ポート33に接続された機器を識別すると、接続された機器の種類、すなわち、音声入力デバイス、及び、表示デバイスであるか否かを判定する。そして、外部機器検出サービス51は、接続された機器が音声入力デバイスである場合にはマイク13が接続されたと判定し、接続された機器が映像出力デバイスである場合にはディスプレイ14が接続されたと判定する。
音声入力サービス52は、外部機器検出サービス51によってマイク13が接続されたと判定された場合に、マイク13の種類や性能等の判定を行う。そして、音声入力サービス52は、予め記憶されているドライバソフトの一覧から適切なドライバソフトを選択して設定し、接続されたマイク13からの音声データの入力を受け付ける。なお、音声入力サービス52は、マイク13の種類に応じてサンプルレートの検出を行ってもよい。
映像出力サービス53は、外部機器検出サービス51によってディスプレイ14が接続されたと判定された場合に、ディスプレイ14の種類や性能等の判定を行う。そして、映像出力サービス53は、予め記憶されているドライバソフトの一覧から適切なドライバソフトを選択し、接続されたディスプレイ14へと映像データを出力する。
設定サービス54は、議事録生成装置11の起動時に初期設定を行う。詳細には、設定サービス54は、ユーザに対して初期設定を促し、入力機器15からの入力に応じて従って議事録生成装置11の初期設定を行う。
文字データ生成サービス55は、マイク13から取得した音声データに対して、サーバ21における音声解析エンジンを用いて、文字データを生成する。
話者識別サービス56は、マイク13から取得した音声データに対して、サーバ21における音声解析エンジンンを用いて、話者情報を生成する。なお、文字データ生成サービス55及び話者識別サービス56は、協働してサーバ21の音声処理エンジンに処理を行わせることにより、議事録生成装置11とサーバ21との間の通信量の低減を図ることができる。
統合サービス57は、文字データ生成サービス55及び話者識別サービス56によりサーバ21の音声解析エンジンによる処理結果を統合することで、議事録データを作成する。なお、文字データ生成サービス55、話者識別サービス56、及び、統合サービス57の処理の詳細は、後に、図11、14を用いて説明する。
自然言語処理サービス58は、統合サービス57により生成された議事録データに対して、サーバ21における自然言語処理を行うことによって、最終議事録データを生成する。自然言語処理によって、統合サービス57において生成された議事録データにおける誤りの修正や禁止ワードの削除が行われる。
感情解析サービス59は、自然言語処理サービス58により生成された最終議事録データに対して、サーバ21における感情解析処理を行うことによって、感情解析結果を生成する。
なお、言語により感情解析の処理精度が異なる等の場合には、翻訳処理を介在させてもよい。例えば、日本語で議事録が生成される場合であっても、日本語よりも英語の方が感情解析の処理精度が高い場合には、感情解析サービス59は、最終議事録データを英訳した後にサーバ21に送信し、サーバ21によって得られる英語の感情解析結果を日本語に再翻訳することで、感情解析結果を得る。
また、議事録生成装置11を店頭などに配置し店員と顧客との間の会話を収集することにより、感情解析結果を、例えば、販売戦略の立案等に用いることができる。なお、感情解析結果はネットワーク上には保存されずに、ローカル環境10において記録されるため、セキュリティやプライバシーの問題が発生しにくい。
このように、議事録生成装置11においては、コンテナ化されたマイクロサービスによって種々の処理が実行可能なように構成されている。さらに、オーケストレーションツール43によってコンテナ47の実行環境が管理されている状況においては、初期設定時やシステム更新時などにおいて、マイクロサービスを任意にサーバ21からダウンロードする(デプロイする)ことによって、議事録生成装置11に所定のマイクロサービスを配置することができる。そのため、簡易なハードウェア構成で、議事録生成装置11を容易に構成することができる。
ここで、サーバ21において文字データ生成及び話者識別を行う音声解析エンジンについて説明する。このエンジンを用いた音声解析によって、文字データ生成及び話者識別の両者または一方の処理を行うことができるため、議事録生成装置11は、サーバ21に対して、音声データの送信とあわせて所望の処理を指示してもよい。
話者識別処理においては、議事録生成装置11から受け付けた音声データを解析し、その周波数、声調、音色などの特徴に基づいて処理識別子(識別ID)を付与し、議事録生成装置11に対して識別IDを送信する。
文字データ作成処理においては、議事録生成装置11から受け付けた音声データに示される文字データを作成する。例えば、会議の参加者が限られており、音声データに含まれる話者が限定される場合には、特定の識別IDに限定して処理を行うことで、音声解析処理の高速化を図ることができる。
サーバ21から議事録生成装置11への出力には、時間情報とともに、生成された文字データ及び/または話者の識別IDが含まれる。詳細については、後に図12等を用いて説明する。
以下、図6~図13を用いて、議事録生成装置11内の外部機器検出サービス51~感情解析サービス59の処理について説明する。
図6は、議事録生成装置11の初期設定時のネットワーク設定制御を示すフローチャートである。
ステップS601において、設定サービス54は、初回起動時における設定の一つとして、ネットワーク設定(無線LAN設定)を開始する。この初期設定処理により、議事録生成装置11はLAN12と接続されて、WAN20を介してサーバ21と通信することができる。なお、設定サービス54は、入力機器15からの入力に応じてネットワーク設定を開始してもよい。
ステップS602において、設定サービス54は映像出力サービス53に対して設定画面データを送信する。ステップS603において、映像出力サービス53は、入力された設定画面データに応じてディスプレイ14に設定画面を表示する。設定画面にはユーザに対して無線を介したLAN12との接続に必要なパスワード等の情報の入力を促す旨が示される。
ステップS604において、入力部35はユーザによる入力機器15の操作情報を受け付けると、受け付けた操作情報に示される入力情報(例えば、パスワード)を設定サービス54へ出力する。このようにすることで、ユーザにより入力された無線LANへの接続に必要な情報が設定サービス54へと入力される。
ステップS605において、設定サービス54は、入力された設定情報を用いて通信部34を介したLAN12への接続設定を完了させる。そして、ステップS606において、設定サービス54は映像出力サービス53に対して設定完了画面データを送信する。ステップS607において、映像出力サービス53は、入力された設定終了画面データに応じた、設定完了の画面をディスプレイ14に表示する。これにより、議事録生成装置11のネットワーク設定制御が完了される。
次に、図7は、マイク13の接続制御を示すフローチャートである。
ステップS701において、議事録生成装置11は、自律的にBluetooth等を介して周辺にあるマイク13を検出すると、マイク13と入出力ポート33との間の接続を確立する。議事録生成装置11に対して有線でマイク13が入出力ポート33に接続されてもよい。そして、ステップS702において、入出力ポート33はマイク13の接続を検出すると、接続通知を外部機器検出サービス51へと送信する。この接続通知には、マイク13の種類に加えてサンプルレート等の動作仕様に関する情報が含まれる。
ステップS703において、外部機器検出サービス51は、接続通知を参照して外部機器(マイク13)の情報を取得する。ステップS704において、外部機器検出サービス51は、接続通知を参照して外部機器の接続状態が正しいか否かを判定する。例えば、外部機器検出サービス51は、接続通知において設定不能なサンプルレートが示されている場合などには、接続状態が正しくないと判定する。
外部機器(マイク13)の接続状態が正しいと判定される場合には(S704:Yes)、接続機器の種類を判定するため、次にステップS705の処理が行われる。外部機器の接続状態が正しいと判定されない場合には(S704:No)、エラー通知をするために次にステップS712の処理が行われる。ステップS712において、外部機器検出サービス51は、マイク13の接続状態が正しくないためエラー通知を行い、ユーザに対して再接続を求めることができる。
ステップS705において、外部機器検出サービス51は、外部機器が音声入力を受け付け可能なマイク13であるか否かを判定する。外部機器がマイク13であると判定されると(S705:Yes)、ステップS706において、外部機器検出サービス51は、音声入力サービス52に対して接続された外部機器の登録要求を送信する。登録要求には、ステップS702において取得したマイク13の情報が含まれる。なお、外部機器がマイク13でないと判定されると(S705:No)、接続制御が終了される。
ステップS707において、音声入力サービス52は、受信した登録要求に含まれるマイク13の接続情報を用いて、マイク13の機器名称を取得する。音声入力サービス52は、予め、機器名称とマイク13の性能とを対応付けたテーブルを有しており、テーブルを参照して接続されたマイク13に応じた処理を行うことができる。
ステップS708において、音声入力サービス52は、予め記憶しているドライバの一覧から、取得したマイク13の機器に対応するドライバを検出し、そのドライバを用いてマイク13が動作するように設定する。
ステップS709において、音声入力サービス52は、マイク13のサンプルレートを取得する。これにより、音声入力サービス52は、所定のサンプルレートに応じた設定を行い、マイク13から音声データが取得可能となる。
ステップS710において、音声入力サービス52は、接続完了処理を終える。そして。ステップS711において、入出力ポート33に対して接続完了を通知する。これにより、マイク13の議事録生成装置11への接続処理が終了する。
このようなマイク13の接続制御によって、議事録生成装置11は接続されたマイク13からの音声データの入力を受け付けることができる。
次に、図8は、ディスプレイ14の接続制御を示すフローチャートである。なお、この制御のうちのステップS802~S805の処理は、図7に示されたマイク13の接続制御におけるステップS702~S705の処理と同じであるため、説明を簡略化する。また、ステップS806~S812の処理は、図7に示されたマイク13の接続制御におけるステップS705~S711の処理と同等である。
ステップS801において、議事録生成装置11は、自律的にBluetooth等を介して周辺にあるディスプレイ14を検出すると、ディスプレイ14と入出力ポート33との間の接続を確立する。議事録生成装置11に対して有線でディスプレイ14が入出力ポート33に接続されてもよい。そして、ステップS802において、入出力ポート33はディスプレイ14の接続を検出すると、接続通知を外部機器検出サービス51へと送信する。この接続通知には、ディスプレイ14の種類に加えて表示の際のリフレッシュ周期を示す駆動レート等の動作仕様に関する情報が含まれる。
ステップS803において、外部機器検出サービス51は、接続通知を参照して外部機器(ディスプレイ14)の情報を取得する。ステップS804において、外部機器検出サービス51は、接続通知を参照して外部機器の接続状態が正しいか否かを判定する。例えば、外部機器検出サービス51は、接続通知において設定不能な駆動レートが示されている場合などには、接続状態が正しくないと判定する。
外部機器の接続状態が正しいと判定される場合には(S804:Yes)、接続機器の種類を判定するため、次にステップS805の処理が行われる。外部機器(ディスプレイ14)の接続状態が正しいと判定されない場合には(S804:No)、エラー通知をするために次にステップS813の処理が行われる。ステップS813において、外部機器検出サービス51は、ディスプレイ14の接続状態が正しくないためエラー通知を行う。
ステップS805において、外部機器検出サービス51は外部機器がマイク13であるか否かを判定し、ステップS806において外部機器検出サービス51は外部機器がディスプレイ14であるか否かを判定する。外部機器はマイク13ではなく(S805:No)、ディスプレイ14である(S806:Yes)ことが判定さると、ステップS807において、外部機器検出サービス51は、映像出力サービス53に対して登録要求を送信する。登録要求には、ステップS802において取得したディスプレイ14の情報が含まれる。なお、外部機器がディスプレイ14でないと判定されると(S806:No)、接続制御が終了される。
ステップS808において、映像出力サービス53は、受信した登録要求に含まれるディスプレイ14の接続情報を用いて、ディスプレイ14の機器名称を取得する。映像出力サービス53は、予め、機器名称とディスプレイ14との性能とを対応付けたテーブルを有しており、テーブルを参照して接続されたディスプレイ14に応じた処理を行うことができる。
ステップS809において、映像出力サービス53は、取得したディスプレイ14の機器に対応するドライバを検出し、そのドライバを用いてディスプレイ14を動作可能なように設定する。
ステップS810において、映像出力サービス53は、ディスプレイ14の駆動レートを取得する。これにより、映像出力サービス53は、所定の駆動レートに応じた設定を行い、マイク13から音声データが取得可能となる。
ステップS811において、映像出力サービス53は、接続完了を終える。そして。ステップS812において、入出力ポート33に対して接続完了を通知する。これにより、ディスプレイ14は議事録生成装置11への接続完了を検出する。
このようにして、議事録生成装置11は接続されたディスプレイ14に対して映像を出力することができる。
なお、本実施形態においては、議事録生成装置11に対して1つのマイク13及び1つのディスプレイ14が接続される例を用いたが、これに限らない。複数のマイク13が接続されてもよいし、複数のディスプレイ14が接続されてもよい。外部機器検出サービス51は、複数のデバイスの接続を管理して、それらのデバイスに対して最適な設定を行うことができる。
図9は、話者設定制御を示すフローチャートである。話者設定制御において予め複数の話者の音声データを話者情報として設定しておくことで、最終的に生成される議事録において発言内容と対応する発言者を示すことができる。
ステップS901において、話者識別サービス56は、第1話者の設定を開始する。ステップS902において、話者識別サービス56は、映像出力サービス53に対して、第1話者の設定画面を表示させることで、ユーザに対して第1話者の発声と議事録における表示氏名の入力を促す。そして、ステップS903において、話者識別サービス56は、入力部35から第1話者の名称の入力を受け付ける。なお、話者識別サービス56は、入力部35から第1話者の所属部署を受け付けて、所属部署と名称とを対応付けて記憶してもよい。そして、ステップS904において、音声入力サービス52から第1話者の音声の入力を受け付ける。ステップS905において、話者識別サービス56は、サーバ21に対して、第1話者の音声データを送信するとともに、話者識別処理を行うように指示する。
ステップS906において、サーバ21は、第1話者の音声データの入力を受け付けると、音声データを解析して第1話者設定を開始する。なお、この解析処理において、話者識別サービス56からの指示に応じて、文字データ作成処理は行わず話者識別処理のみを行う。サーバ21は、第1話者の音声データを解析し、その周波数、声調、音色などの特徴を抽出して、第1話者に特化した処理に用いる識別IDを付与する。そして、ステップS907において、サーバ21は、付与した識別IDを話者識別サービス56へ送信する。
ステップS908において、話者識別サービス56は、ステップS903において入力部35から受け付けた第1話者の名称と、ステップS906において受信した識別IDとを対応付けて話者テーブルを有しており、ユーザの入力及びサーバ21から受信する識別IDを対応付けて話者テーブルを更新する。
そして、ステップS909において、話者識別サービス56は、映像出力サービス53に対して、第1話者の登録の終了画面を表示させる。同時に、ステップS910において、話者識別サービス56は、映像出力サービス53に対して、話者登録の継続の要否、すなわち、次の話者登録を行うか否かを表示し、ユーザに対して継続/終了の入力を促す。そして、ステップS911において、話者識別サービス56は、入力部35からの話者登録の継続/終了の入力を受け付ける。以降、話者識別サービス56は、話者登録を継続する入力を受け付けた場合は第2話者の登録を行うためにステップS901~S909の処理を繰り返し行い、話者登録を終了する入力を受け付けた場合は、話者登録を終了する。
図10は、話者識別サービス56で記憶しているテーブルの一例である。この例によれば、ユーザにより入力される話者名及びその所属と、サーバ21の話者識別処理によって付与される識別IDとが対応付けて記憶されている。このようなテーブルを議事録生成装置11側に備えることによって、サーバ21に個人情報が記憶されないためセキュリティの向上を図ることができる。
図11は、議事録データの生成制御を示すフローチャートである。なお、本フローチャートにおいて議事録データの生成制御に用いられるサービス、すなわち、文字データ生成サービス55、話者識別サービス56、及び、統合サービス57は互いに連携しで動作するものとし、まとめて議事録データ生成部と称するものとする。
ステップS1101において、話者識別サービス56は、会議の参加者の確認を行う。このような確認は、入力機器15を用いて会議に参加中の話者がディスプレイ14に表示されているユーザ名を選択することによって行われるものとする。そして、ステップS1102において、話者識別サービス56は、話者テーブルを参照してステップS1101において確認された会議参加中のメンバーの識別IDをサーバ21へと送信すると、ステップS1103において、サーバ21の音声解析エンジンは、受信した識別IDを会議参加者として登録する。同時に、ステップS1104において、話者識別サービス56は、会議の参加者に関連する話者テーブルを統合サービス57へと送信する。
ステップS1105において、音声入力サービス52が音声データを取得すると、ステップS1106において、取得された音声データが文字データ生成サービス55へと送信される。ステップS1107において、話者識別サービス56は、受信した音声データを所定の時間毎(例えば、10秒毎)に分割して分割音声データを生成し、ステップS1108において、文字データ生成サービス55は、分割音声データをサーバ21の音声解析エンジンへと送信する。同時に、文字データ生成サービス55は、音声解析エンジンに対して文字データ生成、及び、話者識別の両者を行うようにサーバ21に指示する。
なお、ステップS1107の分割処理の前段において、取得した音声データに対して雑音の除去やサンプリングレートの調整等の補正を行ってもよい。このようにすることで、音声解析の精度を向上させることができる。また、ステップS1107の分割処理において、分割音声データにおいて最初と最後の部分に前後の分割音声データと重複するマージンが設けられてもよい。このようなマージンが設けられることにより、音声データが分割されるタイミングの前後の音声は、隣接する分割音声データの両者に記録されることとなるため、分割に起因する文字データの生成精度の低下を抑制できる。分割音声データは、時刻情報と対応付けられているので、後述の統合処理においてマージン箇所の削除を行うことができる。
ステップS1109において、サーバ21は、受信した分割音声データに対して音声解析を行う。ここで、サーバ21は、ステップS1102において参加者の識別IDを受信しており、図9のステップS906において識別IDが付与される際に抽出された周波数、声調、音色などの特徴を優先的に用いて音声解析が行われる。そして、ステップS1110において、サーバ21は、受信した分割音声データの音声解析結果を統合サービス57に送信する。
図12には、サーバ21の音声解析エンジンによって生成される音声解析テーブルの一例が示されている。音声解析テーブルにおいては、時間帯、及び、文字データが組み合わされて時間帯毎に示されている。詳細には、09時10分00秒~03秒の3F2Dの識別IDの話者による〇〇〇〇〇〇〇〇〇の発言、09時10分03秒~07秒の2A80の識別IDの話者による△△△△△△の発言、及び、09時10分07秒~10秒の3F2Dの識別IDの話者による××××××××××××の発言が示されている。
再び、図11を参照すれば、ステップS1111において、統合サービス57は、サーバ21から受信した複数の音声解析テーブルを統合する。なお、前後に隣接する分割音声データに時間的重なりがあるため、音声解析結果にも時間的重なりが存在する。そこで、統合サービス57は複数の音声解析テーブルを統合する際に、隣接する音声解析テーブルとの重複時間部分を削除して、1つの音声解析結果を生成する。
ステップS1112において、統合サービス57は、ステップS1104において受信した話者テーブルを用いて、生成した音声解析結果における識別IDを登録されている話者名称に変換する。このようにして、ステップS1113において、最終的に、統合サービス57は議事録データを生成する。
なお、図11の例においては、識別IDをステップS1102において予め送信したが、これに限らない。ステップS1108において、都度、分割音声データとともに参加者の識別IDを送信してもよい。
図13は、生成された議事録データに対する追加処理を示すフローチャートである。
ステップS1301において、統合サービス57は議事録データを生成する。なお、この処理は、図11のステップS1113の処理に相当する。そして、ステップS1302において、生成した議事録データを自然言語処理サービス58へと送信する。
ステップS1303において、自然言語処理サービス58は、入力された議事録データに対して自然言語処理を行うことで最終議事録データを生成する。なお、ステップS1303の処理の詳細であるステップS13031~S13036の処理は以下の通りである。
ステップS13031において、自然言語処理サービス58は、統合サービス57から入力された議事録データを話者毎に分割して分割議事録データを生成する。なお、議事録データは、話者毎に加えて、さらに、文節毎に分割されてもよい。
ステップS13032において、自然言語処理サービス58は、ステップS13031において生成した分割議事録データをサーバ21に送信する。ステップS13033において、サーバ21は自然言語処理エンジンによって分割議事録データに対して自然言語処理を行う。サーバ21においては、話者の使用言語(例えば日本語)を判定した上で、その言語に応じた自然言語となるような補正や、事前に設定された禁止ワードの削除等が行われる。そして、ステップS13034において、自然言語処理サービス58は、自然言語処理済の分割議事録データを自然言語処理サービス58へと送信する。
ステップS13035において、自然言語処理サービス58は、サーバ21から受信した自然言語処理済の分割議事録データを統合する。そして、ステップS13036において、自然言語処理サービス58は、自然言語処理による修正がなされた議事録データを生成する。
そして、ステップS1304において、自然言語処理サービス58は、生成した最終議事録データを感情解析サービス59及び映像出力サービス53へと出力する。映像出力サービス53は、最終議事録データに示される情報を、後述の図16又は図17に示されるような形式のユーザインターフェースを用いてディスプレイ14に表示する。
ステップS1305において、感情解析サービス59は、入力された最終議事録データに対して感情解析を行い、感情解析結果を生成する。ステップS1305の処理の詳細であるステップS13051~S13057の処理以下の通りである。なお、感情解析処理を、特定の応用場面、例えば、議事録生成装置11がデパート等の小売りの現場に用いられる場合において、選択的に行ってもよい。
ステップS13051において、感情解析サービス59は、統合サービス57から入力された議事録データを話者毎に分割して分割議事録データを生成する。なお、議事録データは、話者毎に加えて、さらに、文節毎に分割されてもよい。そして、ステップS13052において、分割した最終議事録データを他言語に翻訳する。
感情解析は、言語の種類に応じてその精度が異なる場合がある。例えば、日本語よりも英語の方が感情解析の精度が高い場合には、感情解析サービス59は、最終議事録データを英語に翻訳した後にサーバ21へ送信する。なお、翻訳をサーバ21に行わせてもよい。
ステップS13053において、感情解析サービス59は、ステップS13052において生成された翻訳データをサーバ21に送信する。ステップS13054において、サーバ21は翻訳データに対して感情解析処理を行い、感情解析データを生成すると、ステップS13055において、感情解析データを感情解析サービス59へと送信する。
ステップS13056において、感情解析サービス59は、サーバ21から受信した感情解析結果を再翻訳する。これは、ステップS13053においてサーバ21に送信された言語によって、感情解析結果が生成されるため、再度日本語への翻訳が必要となるためである。そして、ステップS13057において、感情解析サービス59は、感情解析結果を生成することで話者毎の感情解析結果を示すことができる。
例えば、議事録生成装置11が店舗等に配置される場合に、感情解析結果を積極的に用いることができる。すなわち、店員と顧客との間の会話に対して文字起しした議事録データを生成し、その議事録データに対して感情解析を行うことにより、顧客の反応が肯定的であるか等を把握でき、顧客サービスの向上を図ることができる。
ステップS1306において、感情解析サービス59は、生成した感情解析結果を映像出力サービス53へと送信し、ディスプレイ14に感情解析結果を出力してもよい。なお、感情解析サービス59は、自然言語処理サービス58から出力される最終議事録データに替えて、統合サービス57により生成される議事録データに対して感情解析を行ってもよい。このようにすることで、感情解析結果の生成までの要する時間を、自然言語の処理時間だけ短縮化することができる。
このようにして、映像出力サービス53は、最終議事録データと感情解析結果とを受け付けると、それらのデータが示す情報をディスプレイ14に表示する。なお、最終議事録データと感解析情結果とは、議事録生成装置11内のストレージやネットワーク上にあるサーバ21に保存されてもよい。
(変形例)
上記実施形態においては、図11に示される音声解析において、文字データ生成サービス55、話者識別サービス56、及び、統合サービス57により構成される議事録生成部が密接に協働して動作し、1つのサーバ21に対して文字データ生成と話者識別との両者を含む音声解析を行わせる例を説明したが、これに限らない。
上記実施形態においては、図11に示される音声解析において、文字データ生成サービス55、話者識別サービス56、及び、統合サービス57により構成される議事録生成部が密接に協働して動作し、1つのサーバ21に対して文字データ生成と話者識別との両者を含む音声解析を行わせる例を説明したが、これに限らない。
本変形例においては、文字データ生成サービス55、及び、話者識別サービス56が、それぞれ文字データ作成と話者識別とを行うとともに、文字データ生成と話者識別とが別々の第1サーバ21A、及び、第2サーバ21Bにおいて行われる例について説明する。なお、以下では、第1サーバ21Aには文字データ生成エンジンが、第2サーバ21Bに話者識別エンジンが設けられているものとする。
図14は、変形例における議事録データの生成制御を示すフローチャートである。
ステップS1401において、話者識別サービス56は、会議の参加者の確認を行う。そして、ステップS1402において、話者識別サービス56は、話者テーブルを参照してステップS1401において確認された会議の参加中のメンバーの識別IDを第1サーバ21A、及び、第2サーバ21Bへと送信する。ステップS1403において、第1サーバ21Aの文字データ生成エンジンは、受信した識別IDを会議参加者として登録し、ステップS1404において、第2サーバ21Bの話者識別エンジンは、受信した識別IDを会議参加者として登録する。
ステップS1405において、音声入力サービス52が音声データを取得すると、ステップS1406において、取得された音声データが文字データ生成サービス55及び話者識別サービス56へと送信される。そして、ステップS1407において文字データ生成制御が行われ、ステップS1408において話者識別制御が行われる。
ステップS1407の文字データ生成制御の詳細は以下のとおりである。
ステップS14071において、文字データ生成サービス55は、受信した音声データを所定の時間毎に分割して分割音声データを生成し、ステップS14072において、文字データ生成サービス55は、分割音声データを第1サーバ21Aの文字データ生成エンジンへと送信する。なお、分割音声データには隣接する分割音声データと時間的重なりが存在するようにマージンが設けられていてもよい。
ステップS14073において、第1サーバ21Aの文字データ生成エンジンは受信した分割音声データを解析して文字データを生成すると、ステップS14074において、第1サーバ21Aは生成した文字データテーブルを文字データ生成サービス55へと送信する。
図15Aには、サーバ21の文字データ生成エンジンによって生成される文字データテーブルの一例が示されている。文字データテーブルにおいては、文字データが時間帯毎に示されている。詳細には、09時10分00秒~03秒の〇〇〇〇〇〇〇〇〇の発言、09時10分03秒~07秒の△△△△△△の発言、及び、09時10分07秒~10秒の××××××××××××の発言を示す文字データが示されている。
再び図14を参照すれば、ステップS14075において、文字データ生成サービス55は、受信した複数の文字データテーブルを時間的に結合することで文字データ結合テーブルを作成する。なお、この結合処理において、時間的に前後に隣接するテーブルにおける重複時間部分が削除される。そして、ステップS14076において、文字データ生成サービス55は、生成した文字データ結合テーブルを統合サービス57へと送信する。このようにして、文字データ生成制御による文字データの生成が行われる。
ステップS1408の話者識別制御の詳細は以下のとおりである。
ステップS14081において、話者識別サービス56は、受信した音声データを所定の時間毎に分割して分割音声データを生成し、ステップS14082において、話者識別サービス56は、分割音声データを第2サーバ21Bの話者識別エンジンへと送信する。なお、分割音声データには隣接する分割音声データと時間的重なりが存在するようにマージンが設けられていてもよい。
ステップS14083において、第2サーバ21Bの話者識別エンジンは受信した分割音声データを解析して話者IDテーブルを生成すると、ステップS14084において、第1サーバ21Aは生成した話者IDテーブルを話者識別サービス56へと送信する。
図15Bには、第2サーバ21Bの話者識別エンジンによって生成される識別IDテーブルの一例が示されている。識別IDテーブルにおいては、話者の識別IDが時間帯毎に示されている。詳細には、09時10分00秒~03秒の3F2Dの識別IDの話者による発言、09時10分03秒~07秒の2A80の識別IDの話者による発言、及び、09時10分07秒~10秒の3F2Dの識別IDの話者による発言があったことが示されている。
再び図14を参照すれば、ステップS14085において、文字データ生成サービス55は、受信した複数の識別IDテーブルを結合することで識別ID結合テーブルを作成する。なお、この結合処理において、隣接するテーブルにおける重複時間部分が削除される。そして、ステップS14086において、話者テーブルを用いて、生成した識別ID結合テーブルにおける識別IDを登録されている話者名称に変換する。ステップS14087において、文字データ生成サービス55は、識別ID結合テーブルを統合サービス57へと送信する。このようにして、話者識別制御による話者データの生成が行われる。
ステップS1407の文字データ生成制御及びステップS1408の話者識別制御を終えると、ステップS1409において、統合サービス57は文字データ結合テーブルと、話者データ結合テーブルとを時刻情報を用いて対応付けて統合する。ステップS1410において、統合サービス57は、識別IDを話者名称に変換した後に、最終的に、議事録データを生成する。
なお、ステップS1407の文字データ生成制御により生成される文字データテーブルは、図15Cに示されるように、話者に応じず、文字データのみが時刻情報とともに記載されていてもよい。このような文字データテーブルであっても、識別IDテーブルにおいて識別IDが時刻情報とともに記載されている場合には、統合サービス57によって時刻情報を用い文字データテーブルと識別IDテーブルとを統合することで、識別ID(話者)毎の発言内容を示す議事録データを生成することができる。
図16及び図17は、映像出力サービス53がディスプレイ14に出力する議事録データの表示形式の一例を示す図である。
図16に示されるように、自然言語処理を経た最終議事録データに基づいて、話者と発言内容とが対応して表示される。なお、予め登録された話者についてはその名前を表示することができる。例えば、図示されるように、田中太郎と佐藤花子の2名が話者登録されている場合には、その2名の発言内容は登録された名称とともに表示される。一方、登録されていない話者Cの発言内容については、話者名が特定されることなく表示される。後に、Cが話者登録されると、最終議事録データの表示形式においてCの名称が記載される。
また、別の例として、図17に示されるように、左右に2名の話者(田中太郎、佐藤花子)が示され、いずれか一方から吹き出しの枠内に発言内容が示されるようにしてもよい。これらの議事録データを表示するユーザインターフェースは、映像出力サービス53によって生成される。
なお、複数のマイク13が議事録生成装置11に接続される場合には、マイク13毎に音声入力サービス52が設けられ、それぞれの音声入力サービス52から時刻データと共に音声データが議事録データ生成部へと入力される。議事録データ生成部は、時刻情報を用いて入力される音声データを統合し、結合した音声データをサーバ21へと送信する。
また、話者テーブルの更新は任意のタイミングで行うことができ、例えば、最終議事録データが生成された後において、名称が未登録の話者が存在する場合には、新たに話者登録を行い話者テーブルの更新を行うことで、議事録データ内において話者名称へと変換することができる。
上記実施形態においては、サーバ21はLAN12及びWAN20を介して議事録生成装置11と接続される例について説明したが、これに限らない。図18に示されるように、サーバ21は、ローカル環境10に設けられ、LAN12を介して議事録生成装置11と接続されてもよい。このような構成となることにより、WAN20との接続がない環境であっても、議事録生成装置11を動作させることができる。
また、議事録生成装置11は、サーバ21において行われる処理の一部または全部を装置内で行ってもよい。例えば、話者識別サービス56は、サーバ21において行われる話者識別処理の一部または全部を担ってもよい。このような構成となることで、議事録生成装置11とサーバ21との間の通信負荷を軽減でき、処理の高速化を図ることができる。
本実施形態によれば、以下の効果を得ることができる。
本実施形態の議事録生成装置11は、ネットワークと接続して通信を行う通信手段であるLAN12と、外部音声入力手段であるマイク13と接続されて音声データを取得する音声入力サービス52と、音声情報に基づき議事録データを生成する議事録データ生成部(文字データ生成サービス55、話者識別サービス56、及び、統合サービス57)と、外部出力手段であるディスプレイ14と接続されてディスプレイ14へと議事録データを出力する映像出力サービス53と、を備える。
議事録データ生成部のうち、文字データ生成サービス55は、ネットワークを介して提供される文字データ生成処理を利用して、音声情報をテキスト化して対応する文字データを生成し、話者識別サービス56は、ネットワークを介して提供される話者認識処理を利用して、音声情報に含まれる話者を認識して話者情報を生成する。そして、統合サービス57は、文字データ及び話者情報に基づいて議事録データを生成する。
このように、議事録生成装置11は、外部音声入力手段であるマイク13と接続可能な音声入力サービス52、及び、外部出力手段であるディスプレイ14と接続可能な映像出力サービス53を備えるため、議事録生成装置11自身において入出力装置を備えない簡易な構成となる。
さらに、議事録生成装置11が備える議事録データ生成部においては、文字データ生成サービス55、及び、話者識別サービス56が、ネットワーク上のサーバ21によって提供される機能を用いて、文字データ及び話者情報が生成される。そして、統合サービス57において、文字データ及び話者情報を統合することで議事録情報が生成される。このように、議事録生成装置11における処理負荷が低減されている。
したがって、簡易な構成の議事録生成装置11を用いることによって、議事録を手間なく容易に生成することができるだけでなく、話者認識等の高度な処理を伴う議事録データの生成が可能となる。
本実施形態の議事録生成装置11によれば、音声入力サービス52とマイク13との接続は自律的に確立され、映像出力サービス53はディスプレイ14との接続は自律的に確立される。このように、外部機器との接続が自動的に行われることにより、ユーザによる接続処理を省略できるため、議事録生成装置11の利便性の向上を図ることができる。
本実施形態の議事録生成装置11によれば、話者識別サービス56は、話者認識処理において用いられる話者毎の識別IDを記憶する話者テーブルを有し、議事録生成装置11の近傍に存在しマイク13により音声が入力されうる話者と対応する識別IDをサーバ21へと送信する。このようにすることで、サーバ21における音声解析処理(文字データ生成/話者識別)において、特定の話者に応じた処理に限定することができるので、サーバ21における音声解析処理の精度及び速度向上を図ることができる。
本実施形態の議事録生成装置11によれば、話者識別サービス56は、話者認識処理において用いられる話者毎の識別IDを記憶する話者テーブルを有し、議事録生成装置11の近傍に存在しマイク13により音声が入力されうる話者と対応する識別IDをサーバ21へと送信する。このようにすることで、サーバ21における音声解析処理(文字データ生成/話者識別)において、特定の話者に応じた処理に限定することができるので、サーバ21における音声解析処理の精度及び速度向上を図ることができる。
本実施形態の議事録生成装置11によれば、サーバ21においては識別IDを用いた処理が行われ、議事録生成装置11の統合サービス57において、識別IDから話者名称への変換を行って議事録データを生成する。このようにすることで、話者名称がサーバ21へと送信されないので、プライバシー及びセキュリティ機能の向上を図ることができる。
本実施形態の議事録生成装置11によれば、話者識別サービス56は、予め、話者認識処理において用いられる話者毎の音声情報を記憶する初期設定処理を行う。このように、初期設定において、話者毎の音声情報を記録することによって、話者識別処理における識別率の向上が図られるとともに、最終的に生成される議事録データにおいて話者が記録することができるので利便性の向上を図ることができる。
本実施形態の議事録生成装置11によれば、音声入力サービス52は、取得した音声データに対して雑音の除去やサンプリングレートの調整等の補正を行い、補正後の音声データが文字データ生成サービス55及び話者識別サービス56において処理される。このように、サーバ21において行われる処理の前段において音声データに対して補正を行うことにより、処理結果の精度の向上を図ることができる。
また、議事録生成装置11で取得した音声データに補正を行うことによって、より議事録生成装置11の設けられている環境に応じた適切な補正ができる。さらに、補正をサーバ21側で行う必要がないので、サーバ21においては汎用的な制御処理を利用することができるため、サーバ21における処理に関する運用コストの低減を図ることができる。
本実施形態の議事録生成装置11によれば、さらに、自然言語処理サービス58を備え、自然言語処理サービス58は、統合サービス57によって生成された議事録データに対して自然言語処理を行う。自然言語処理においては、文字認識処理において発生しうる誤りを訂正することが可能であるため、議事録データの精度の向上を図ることができる。
本実施形態の議事録生成装置11によれば、さらに、感情解析サービス59を備え、感情解析サービス59は、統合サービス57によって生成された議事録データに対して、サーバ21において実行される感情解析を行う。このように議事録生成装置11が感情解析を行うことにより、例えば、議事録生成装置11がデパート等の小売りの現場に用いられる場合には、顧客と店員との会話に基づいた感情解析を行うことができるため、商品の販売戦略に用いることができる。
本実施形態の議事録生成装置11によれば、音声入力サービス52は、入出力ポート33に接続されるマイク13のサンプリングレート等の動作仕様を取得し、予め記憶された当該動作仕様に応じたマイク13の設定を用いて、音声データを取得する。このように、マイク13をその動作仕様に応じて動作させることにより、マイク13により取得される音声データの正確性を向上させることができるので、最終的な議事録データの精度の向上を図ることができる。
本実施形態の議事録生成装置11によれば、映像出力サービス53は、入出力ポート33に接続されるディスプレイ14の表示レート等の動作仕様を取得し、予め記憶された当該動作仕様に応じたディスプレイ14の設定を用いて、映像を出力する。このように、ディスプレイ14をその動作仕様に応じて動作させることにより、ディスプレイ14による映像出力の精度を向上させることができる。
本実施形態の議事録生成装置11によれば、外部機器検出サービス51は、入出力ポート33に接続されるマイク13又はディスプレイ14の接続が正しいか否かを判定することができる。このような判定処理を含むことにより、接続が正しくない場合には、ユーザに対して再接続を求める等を行うことができる。
本実施形態の議事録生成装置11によれば、音声入力サービス52は、1又は複数のマイク13と接続可能に構成される。例えば、音声入力サービス52が複数のマイク13と接続される場合には、複数のマイク13により取得された音声データを時刻情報に基づいて統合することで、以降の音声解析を行うことができる。このように、複数のマイク13を用いることにより、入力される音声データの品質向上を図ることができる。
本実施形態の議事録生成装置11によれば、コンテナエンジン42が導入されたコンテナ環境においてマイクロサービスがコンテナ化されとともに、コンテナ環境のハードウェアリソースがオーケストレーションツール43により管理されている。このように、それぞれの処理部がコンテナ化されることによって、議事録生成装置11の処理速度が高速化させることができるので、それぞれの処理がサーバ21により提供される機能を用いても、遅延なく議事録を生成することができる。
本実施形態の議事録生成装置11によれば、コンテナ化されたマイクロサービスは、議事録生成装置11の初期設定時、又は、システム更新時において、ネットワークから取得されて議事録生成装置11内にデプロイされる。このような構成となることで、議事録生成装置11の初期設定やシステム更新を容易に行うことができる。
以上、本発明の実施形態について説明したが、上記実施形態は本発明の適用例の一部を示したに過ぎず、本発明の技術的範囲を上記実施形態の具体的構成に限定する趣旨ではない。
11 議事録生成装置
13 マイク
14 ディスプレイ
21 サーバ
42 コンテナエンジン
43 オーケストレーションツール
51 外部機器検出サービス
52 音声入力サービス
53 映像出力サービス
55 文字データ生成サービス
56 話者識別サービス
57 統合サービス
13 マイク
14 ディスプレイ
21 サーバ
42 コンテナエンジン
43 オーケストレーションツール
51 外部機器検出サービス
52 音声入力サービス
53 映像出力サービス
55 文字データ生成サービス
56 話者識別サービス
57 統合サービス
Claims (16)
- 所定のネットワークと接続して通信を行う、通信手段と、
外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
前記音声情報に基づき議事録データを生成する、議事録データ生成部と、
外部出力手段と接続され、前記外部出力手段へと前記議事録データを出力する、第2の接続手段と、を備え、
前記議事録データ生成部は、
前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成する、文字データ生成部と、
前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成する、話者認識部と、
前記文字データと前記話者情報に基づいて前記議事録データを生成する、統合処理部と、を備える、議事録生成装置。 - 請求項1に記載の議事録生成装置であって、
前記第1の接続手段と前記外部音声入力手段との接続は自律的に行われ、及び/または、
前記第2の接続手段と前記外部出力手段との接続は自律的に行われる、議事録生成装置。 - 請求項1または2に記載の議事録生成装置であって、
前記話者認識部は、
前記話者認識処理において用いられる話者毎の識別子を記憶し、
前記外部音声入力手段により音声が入力されうる話者と対応する識別子を前記ネットワークに対して通知する、議事録生成装置。 - 請求項3に記載の議事録生成装置であって、
前記ネットワークを介して提供される話者認識処理において前記識別子と対応付けられた話者情報が生成され、
前記統合処理部は、前記話者情報において前記識別子を対応する話者名へ変換し、前記変換された話者名を用いて前記議事録データを生成する、議事録生成装置。 - 請求項1から4のいずれか1項に記載の議事録生成装置であって、
前記文字データ生成部は、前記ネットワークを介して提供される前記テキスト化処理の前段に、補正処理を損なう、議事録生成装置。 - 請求項1から5のいずれか1項に記載の議事録生成装置であって、
前記議事録データ生成部は、さらに、
前記統合処理部によって生成された議事録データに対して、前記ネットワークを介して提供される自然言語処理を利用して自然言語処理を行う、自然言語処理部を、を備える、議事録生成装置。 - 請求項1から6のいずれか1項に記載の議事録生成装置であって、
前記議事録データ生成部は、さらに、
前記統合処理部によって生成された議事録データに対して、前記ネットワークを介して提供される感情解析を利用して感情解析処理を行う、感情解析処理部を、を備える、議事録生成装置。 - 請求項1から7のいずれか1項に記載の議事録生成装置であって、
前記第1の接続手段は、前記外部音声入力手段と接続される時に前記外部音声入力手段の動作仕様を取得し、当該動作仕様に応じて前記外部音声入力手段から前記音声情報を取得する、議事録生成装置。 - 請求項1から8のいずれか1項に記載の議事録生成装置であって、
前記第2の接続手段は、前記外部出力手段と接続される時に前記外部出力手段の動作仕様を取得し、当該動作仕様に応じて前記外部出力手段へと出力制御を行う、議事録生成装置。 - 請求項1から9のいずれか1項に記載の議事録生成装置であって、
前記第1の接続手段と前記外部音声入力手段との接続、又は、前記第2の接続手段と前記外部出力手段との接続が正しいか否かを判定する判定部を、さらに備える、議事録生成装置。 - 請求項1から10のいずれか1項に記載の議事録生成装置であって、
前記第1の接続手段は、1又は複数の前記外部音声入力手段と接続可能に構成され、
複数の前記外部音声入力手段から受け付ける音声は、時刻に応じて統合される、議事録生成装置。 - 請求項1から11のいずれか1項に記載の議事録生成装置であって、
前記文字データ生成部、前記話者認識部、及び、前記話者情報の少なくとも1つの処理部はコンテナ化され、当該コンテナ化された処理部を動作させるハードウェアリソースはオーケストレーションツールにより管理される、議事録生成装置。 - 請求項12に記載の議事録生成装置であって、
前記コンテナ化された処理部は、前記議事録生成装置の初期設定時、又は、システム更新時において、ネットワークから取得されて前記議事録生成装置内にデプロイされる、議事録生成装置。 - 所定のネットワークと接続して通信を行う、通信手段と、
外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
前記音声情報に基づき議事録データを生成する、議事録データ生成部と、
外部出力手段と接続され、前記外部出力手段へと前記議事録データを出力する、第2の接続手段と、を備える議事録生成装置の制御方法であって、
前記議事録データ生成部は、
前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
前記文字データと前記話者情報に基づいて前記議事録データを生成する、議事録生成装置の制御方法。 - 所定のネットワークと接続して通信を行う、通信手段と、
外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
外部出力手段と接続され、前記音声情報に基づいた議事録データを出力する、第2の接続手段と、を備える議事録生成装置の制御に用いられるコンピュータプログラムであって、
前記コンピュータプログラムは、
前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
前記文字データと前記話者情報に基づいて前記議事録データを生成する、コンピュータプログラム。 - 所定のネットワークと接続して通信を行う、通信手段と、
外部音声入力手段と接続され、音声情報を取得する、第1の接続手段と、
外部出力手段と接続され、前記音声情報に基づいた議事録データを出力する、第2の接続手段と、を備える議事録生成装置の制御に用いられるコンピュータプログラムを格納した記録媒体であって、
前記コンピュータプログラムは、
前記ネットワークを介して提供されるテキスト化処理を利用して、前記音声情報をテキスト化して対応する文字データを生成し、
前記ネットワークを介して提供される話者認識処理を利用して、前記音声情報に含まれる話者を認識して話者情報を生成し、
前記文字データと前記話者情報に基づいて前記議事録データを生成する、コンピュータプログラムを格納した記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020124029A JP2022020499A (ja) | 2020-07-20 | 2020-07-20 | 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 |
PCT/JP2021/026077 WO2022019157A1 (ja) | 2020-07-20 | 2021-07-12 | 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020124029A JP2022020499A (ja) | 2020-07-20 | 2020-07-20 | 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022020499A true JP2022020499A (ja) | 2022-02-01 |
Family
ID=79728726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020124029A Pending JP2022020499A (ja) | 2020-07-20 | 2020-07-20 | 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2022020499A (ja) |
WO (1) | WO2022019157A1 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015153408A (ja) * | 2014-02-19 | 2015-08-24 | 株式会社リコー | 翻訳システム、翻訳処理装置、及び翻訳処理プログラム |
JP6721298B2 (ja) * | 2014-07-16 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声情報制御方法及び端末装置 |
JP2017010262A (ja) * | 2015-06-22 | 2017-01-12 | 株式会社日立製作所 | 情報検索装置および検索方法 |
JP7176188B2 (ja) * | 2017-12-28 | 2022-11-22 | 株式会社リコー | 情報生成システム、情報生成方法、情報処理装置、プログラム |
-
2020
- 2020-07-20 JP JP2020124029A patent/JP2022020499A/ja active Pending
-
2021
- 2021-07-12 WO PCT/JP2021/026077 patent/WO2022019157A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022019157A1 (ja) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230053350A1 (en) | Encapsulating and synchronizing state interactions between devices | |
US10917369B2 (en) | Information processing apparatus, information processing system, and information processing method | |
JP6752870B2 (ja) | 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム | |
CN106297781B (zh) | 控制方法和控制器 | |
KR102108500B1 (ko) | 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기 | |
CN107704169B (zh) | 虚拟人的状态管理方法和系统 | |
JP6728319B2 (ja) | 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム | |
CN107564510A (zh) | 一种语音虚拟角色管理方法、装置、服务器和存储介质 | |
CN104781782A (zh) | 信息处理设备、信息处理方法和程序 | |
US20140143666A1 (en) | System And Method For Effectively Implementing A Personal Assistant In An Electronic Network | |
WO2020079941A1 (ja) | 情報処理装置及び情報処理方法、並びにコンピュータプログラム | |
CN111639503A (zh) | 会议数据处理方法、装置、存储介质及设备 | |
CN116543074B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110019731A (zh) | 智能交互方法、装置、终端设备及存储介质 | |
JP2020140326A (ja) | コンテンツ生成システム、及びコンテンツ生成方法 | |
WO2022019157A1 (ja) | 議事録生成装置、方法、コンピュータプログラム、及び、記録媒体 | |
JP7417272B2 (ja) | 端末装置、サーバ装置、配信方法、学習器取得方法、およびプログラム | |
US20230353613A1 (en) | Active speaker proxy presentation for sign language interpreters | |
CN113035194B (zh) | 一种语音控制方法、显示设备及服务器 | |
JP2021081747A (ja) | 対話制御装置、対話エンジン、管理端末、対話装置、およびプログラム | |
US11150923B2 (en) | Electronic apparatus and method for providing manual thereof | |
KR20210029383A (ko) | 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 | |
CN114626347B (zh) | 剧本写作过程中的信息提示方法及电子设备 | |
WO2020240905A1 (ja) | 音声処理装置、音声の対のコーパスの生産方法、およびプログラムを記録した記録媒体 | |
WO2022193735A1 (zh) | 显示设备及语音交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200721 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20211228 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220126 |