(第一の実施形態)
以下に図面を参照して第一の実施形態について説明する。図1は、言語処理システムの概要を説明する図である。
本実施形態の言語処理システム100は、会議支援サービスを提供する企業により機能が実装された会議支援サーバ200と、言語処理サービスを提供する企業により機能が実装された言語処理装置300とを有する。
本実施形態の言語処理システム100において、言語処理装置300は、会議支援サーバ200から、会議情報に含まれる音声データの変換要求を受け付けると、会議支援サーバ200から音声データを取得し、テキストデータに変換する。
このとき、本実施形態の言語処理装置300は、変換要求を受けた音声データを含む会議情報から特定される団体と対応する辞書データベースを参照し、音声データからテキストデータへの変換を行うことで、音声からテキストへの変換の精度を向上させる。
図1では、会議支援サーバ200は、例えば、企業Aのオフィスで行われた会議の会議情報と、企業Bのオフィスで行われた会議情報と、企業Cのオフィスで行われた会議の会議情報と、を蓄積する。本実施形態の会議情報は、会議を識別する会議IDと、会議の参加者毎の音声データと、後述する電子黒板に描画された文字や画像の描画データとが対応付けられた情報である。会議情報の詳細は後述する。
企業Aのオフィスでの会議は、例えば、電子黒板400Aと、会議の参加者であるユーザAの端末装置500−1、ユーザBの端末装置500−2、ユーザCの端末装置500−3、ユーザDの端末装置500−4と、を用いて行われる。
電子黒板400Aは、ディスプレイに対して手書き入力を行うことが可能であり、入力された文字や画像を描画データとして記憶する。この会議では、例えば会議の進行役であるユーザXが、電子黒板400Aを用いて会議の進行に応じた事項を電子黒板400Aに記述する。
電子黒板400Aは、記述された内容を示す描画データを、電子黒板400Aを識別する端末ID及び会議IDと対応付けて、会議情報の一部として会議支援サーバ200へ送信する。
また、端末装置500−1、500−2、500−3、500−4のそれぞれは、音声入力装置であるマイクを有している。各端末装置500は、マイクから入力された音声データを記憶し、各端末装置を識別する端末IDと対応付けて、会議情報の一部として会議支援サーバ200へ送信する。言い換えれば、本実施形態において、各端末装置500は、各端末装置500を利用する参加者毎の音声データを端末ID及び会議IDと対応付けて会議支援サーバ200へ送信する。
本実施形態では、このようにして、1つの会議における会議情報が会議IDと対応付けられた会議支援サーバ200に蓄積される。
本実施形態では、例えば企業Bや企業Cのオフィスにおいても、同様の環境で会議が行われる。例えば、企業Bでは、電子黒板400Bと、複数の端末装置500と、を用いて行われた会議の会議情報が会議支援サーバ200へ送信される。また、企業Cでは、電子黒板400Cと、複数の端末装置500と、を用いて行われた会議の会議情報が会議支援サーバ200へ送信される。
尚、端末装置500−1、500−2、500−3、500−4のそれぞれを区別しない場合には、端末装置500と呼ぶ。
本実施形態の会議支援サーバ200は、例えば企業Aのオフィスにおいて、電子黒板400Aから、音声データからテキストデータへの変換の要求を受け付けると、言語処理装置300に対し、音声データとテキストデータへの変換要求とを送信する。尚、このとき、音声データは端末IDが対応付けられた状態で言語処理装置300へ送信される。
本実施形態の言語処理装置300は、端末情報データベース310、企業A用辞書データベース320、企業B用辞書データベース330、企業C用辞書データベース340を有する。
端末情報データベース310は、端末装置500の端末IDと、端末装置500の所有者あるいは利用者が所属する団体(企業など)を特定する団体名などの団体識別情報とを対応付けている。
企業A用辞書データベース320は、企業Aのために用意された辞書データベースであり、企業Aで使用される専門用語や業界用語、社内用語、略語等、企業Aに関係する会話が行われた場合の翻訳精度を上げるための用語の辞書が格納されている。同様に、企業B用辞書データベース330、企業C用辞書データベース340は、それぞれ企業B、企業Cのために用意された辞書データベースである。
このような辞書データベースは、例えば、言語処理装置を所有し言語処理サービスを提供する提供企業とこれを利用する企業とが契約を結び、提供企業が契約した企業から情報を収集し、分析することで登録されていく、といった運用が考えられる。なお、データベースは、企業などの団体単位で用意されるものに限られない。例えば、医療・教育・建築などといった業界単位で用意される辞書データベースを有していてもよい。契約した企業に言語処理サービスを提供する際には、その企業専用の辞書データベースの他に、その企業が事業展開している業界に対応した辞書データベースを併用して音声翻訳処理を行うようにしてもよい。各データベースの詳細は後述する。
言語処理装置300は、会議支援サーバ200から、音声データの変換要求を受信すると、音声データと対応付けられた端末IDと、端末情報データベース310と、から、端末IDと対応する団体を特定する。そして、言語処理装置300は、記憶されている複数の辞書データベースの中から、特定した団体に対して適用する辞書データベースを決定し、決定された辞書データベースを参照して音声データをテキストデータへ変換し、変換結果のテキストデータを会議支援サーバ200へ送信する。
例えば、会議支援サーバ200は、ユーザAが所持する端末装置500−1の端末IDと対応付けられた音声データの変換要求を受け付けたとする。
この場合、会議支援サーバ200は、変換要求と共に、端末装置500−1の端末IDが対応付けられた音声データを言語処理装置300へ送信する。
言語処理装置300は、これを受けて、端末情報データベース310を参照し、端末装置500−1の端末IDと対応する団体である企業Aを特定する。次に、言語処理装置300は、企業Aの団体識別情報に対して適用する辞書データベースとして、企業Aと対応する企業A用辞書データベース320を参照して、音声データをテキストデータへ変換する。
したがって、本実施形態によれば、例えば、端末装置500−1の端末IDと対応付けられた音声データに、企業Aで用いられる社内用語や略語が多く含まれている場合でも、音声データを適切なテキストデータへ変換することができる。よって、本実施形態によれば、変換の精度を向上させることができる。
尚、図1では、各企業において開催される会議に用いられる端末装置500を4台としているが、これに限定されない。会議に用いられる端末装置500の台数は任意であって良い。また、図1では、会議支援サーバ200により会議情報が管理される企業を3つの企業としているが、これに限定されない。会議支援サーバ200により会議情報が管理される企業の数は、任意であって良い。
さらに、図1では、会議を行う団体の一例を企業としているが、これに限定されない。会議を行う団体は、教員機関であっても良いし、学生のグループ等であっても良い。つまり、団体とは、複数人のグループであれば良く、会議とは、複数人で議論をすることであれば良い。
また、会議支援サーバ200機能と言語処理装置300とは別々の装置でなくてもよく、会議支援サーバ200が有する機能と、言語処理装置300が有する機能とを、一台の情報処理装置により実現してもよい。あるいは、一の企業が有するシステムとして、会議支援サービス及び言語処理サービスを提供する一台以上の情報処理装置により実現してもよい。従って、本実施形態では、各団体の電子黒板400と、端末装置500と、会議支援サーバ200と、により、会議支援システムを構成しても良い。さらに、各団体における会議では、電子黒板400の代わりに、一般的に端末装置500が用いられても良い。つまり、会議支援システムは、端末装置500と、会議支援サーバ200と、により形成されても良い。さらに、端末装置500を音声入力装置としても良い。
さらに、端末装置500を音声入力装置としても良い。少なくとも、端末装置500は録音機能を有していればよく、例えば、時計型やメガネ型の装置であってもよい。但し、端末装置500自体に言語処理システム100とネットワークを介して通信する機能が無い場合には、会議室で利用される各端末装置500により録音された音声データを取得して言語処理システム100に送信する、ハブとなる中継装置が必要になる。つまり、端末装置500は、録音した音声データが入力される音声入力装置と、言語処理システム100にネットワークを介して音声データを送信する音声出力装置と、を有するが、音声入力装置と音声出力装置は、音声データの送受ができるように構成されていれば、一つのデバイスで構成されていても複数のデバイスで構成されていてもよい。
以下に、本実施形態の言語処理システム100の有する各装置について説明する。図2は、言語処理装置のハードウェア構成の一例を示す図である。
本実施形態の言語処理装置300は、一般の情報処理装置であり、それぞれバスBで相互に接続されている入力装置31、出力装置32、ドライブ装置33、補助記憶装置34、メモリ装置35、演算処理装置36及びインターフェース装置37を有する。
入力装置31は、例えばマウスやキーボードであり、各種の情報を入力するために用いられる。出力装置32は、例えばディスプレイ等であり、各種信号の表示(出力)に用いられる。インターフェース装置37は、モデム,LANカード等を含み、ネットワークに接続する為に用いられる。
言語処理プログラムは、言語処理装置300を制御する各種プログラムの少なくとも一部である。言語処理プログラムは例えば記録媒体38の配布やネットワークからのダウンロードなどによって提供される。言語処理プログラムを記録した記録媒体38は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
また、言語処理プログラムを記録した記録媒体38がドライブ装置33にセットされると、言語処理プログラムは記録媒体38からドライブ装置33を介して補助記憶装置34にインストールされる。ネットワークからダウンロードされた通信プログラムは、インターフェース装置37を介して補助記憶装置34にインストールされる。
補助記憶装置34は、インストールされた言語処理プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置35は、コンピュータの起動時に補助記憶装置34から言語処理プログラムを読み出して格納する。そして、演算処理装置36はメモリ装置35に格納された各プログラムに従って、後述するような各種処理を実現している。
本実施形態の会議支援サーバ200は、一般のコンピュータであり、そのハードウェア構成は、言語処理装置300と同様であるから、説明を省略する。
次に、図3を参照して、本実施形態の電子黒板400のハードウェア構成を説明する。図3は、電子黒板のハードウェア構成の一例を示す図である。
本実施形態に係る電子黒板400は、入力装置41と、表示装置42と、外部I/F43と、通信I/F44と、ROM45(Read Only Memory)とを有する。また、本実施形態に係る電子黒板400は、RAM(Random Access Memory)46と、CPU(Central Processing Unit)47と、HDD(Hard Disk Drive)48と、集音装置49とを有する。これらの各ハードウェアは、それぞれがバスB1で接続されている。
入力装置41は、タッチパネル等であり、ユーザによる各種操作(例えば、音声テキスト変換(日本語)や音声テキスト変換(英語)等の機能の選択操作)を入力するのに用いられる。表示装置42は、ディスプレイ等であり、各種情報(例えば、音声テキスト変換(日本語)による変換結果を示すテキスト等)を表示する。
外部I/F43は、外部装置とのインターフェースである。外部装置には、記録媒体43a等がある。これにより、電子黒板400は、外部I/F43を介して、記録媒体43a等の読み取りや書き込みを行うことができる。なお、記録媒体43aには、例えば、USBメモリやCD、DVD、SDメモリカード等がある。
通信I/F44は、電子黒板400をネットワークN1等に接続するためのインターフェースである。これにより、電子黒板400は、通信I/F44を介して、他の装置(と通信を行うことができる。
HDD48は、プログラムやデータを格納している不揮発性の記憶装置である。HDD48に格納されるプログラムやデータには、電子黒板400全体を制御する基本ソフトウェアであるOS(Operating System)、OS上において各種機能を提供するアプリケーションプログラム等がある。
また、HDD48は、格納しているプログラムやデータを所定のファイルシステム及び/又はDB(データベース)により管理している。なお、電子黒板400は、HDD48に代えて、記憶媒体としてフラッシュメモリを用いるドライブ装置(例えばソリッドステートドライブ:SSD)を有していても良い。
ROM45は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリである。ROM45には、電子黒板400の起動時に実行されるBIOS(Basic Input/Output System)、OS設定、及びネットワーク設定等のプログラムやデータが格納されている。RAM46は、プログラムやデータを一時保持する揮発性の半導体メモリである。
CPU47は、ROM45やHDD48等の記憶装置からプログラムやデータをRAM46上に読み出し、処理を実行することで、電子黒板400全体の制御や機能を実現する演算装置である。
集音装置49は、例えばマイクロフォン(マイク)等であり、電子黒板400の周囲の音を集音する。
本実施形態に係る電子黒板400は、図3に示すハードウェア構成を有することにより、後述するような各種処理を実現できる。
次に、図4を参照して本実施形態の端末装置500のハードウェア構成について説明する。図4は、端末装置のハードウェア構成の一例を示す図である。
本実施形態の端末装置500は、一般の情報処理装置であり、それぞれバスB2で相互に接続されている入力装置51、出力装置52、ドライブ装置53、補助記憶装置54、メモリ装置55、演算処理装置56、インターフェース装置57及び集音装置58を有する。
入力装置51は、例えばマウスやキーボードであり、各種の情報を入力するために用いられる。出力装置52は、例えばディスプレイ等であり、各種信号の表示(出力)に用いられる。インターフェース装置57は、モデム,LANカード等を含み、ネットワークに接続する為に用いられる。
集音装置58は、例えばマイクロフォン(マイク)等であり、端末装置500の周囲の音を集音する。
情報処理プログラムは、端末装置500を制御する各種プログラムの少なくとも一部である。情報処理プログラムは例えば記録媒体59の配布やネットワークからのダウンロードなどによって提供される。情報処理プログラムを記録した記録媒体59は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
また、情報処理プログラムを記録した記録媒体59がドライブ装置53にセットされると、情報処理プログラムは記録媒体59からドライブ装置53を介して補助記憶装置54にインストールされる。ネットワークからダウンロードされた通信プログラムは、インターフェース装置57を介して補助記憶装置54にインストールされる。
補助記憶装置54は、インストールされた情報処理プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置55は、コンピュータの起動時に補助記憶装置54から言語処理プログラムを読み出して格納する。
そして、演算処理装置56はメモリ装置55に格納された各プログラムに従って、後述するような各種処理を実現している。
次に、図5を参照して、言語処理システム100の有する各装置の機能について説明する。図5は、第一の実施形態の言語処理システムの有する各装置の機能を説明する図である。はじめに、会議支援サーバ200の機能について説明する。
本実施形態の会議支援サーバ200は、会議管理情報データベース210、会議情報データベース220、会議登録部230、会議管理部240、会議情報収集部250、変換要求部260を有する。
会議管理情報データベース210は、ユーザにより開催される会議を管理するための会議管理情報が格納される。会議情報データベース220は、団体毎の会議情報が格納される。各データベースの詳細は後述する。
会議登録部230は、開催される会議に応じた新規登録の要求をユーザから受け付けると、新たに会議IDを発行し、その会議を管理する会議管理情報を、会議管理情報データベース210へ登録する。
会議管理部240は、開催される会議及び開催される会議を管理する。具体的には、会議管理部240は、例えば会議管理情報データベース210に会議管理情報が格納されている会議の開催要求に合わせて、会議情報収集部250に会議情報の収集を開始させたりする。
会議情報収集部250は、会議に参加する装置(電子黒板400や端末装置500など)により入力された会議情報を収集する。会議情報の収集の詳細は後述する。
変換要求部260は、言語処理装置300に対して、会議情報に含まれる音声データのテキストデータへの変換要求を行う。
本実施形態の変換要求部260は、例えば電子黒板400や端末装置500から、会議支援サーバ200に対して、音声データの変換要求を受け付けたとき、変換要求を行った装置の端末IDと対応付けられた音声データと、変換要求とを言語処理装置300へ送信しても良い。
また、本実施形態の変換要求部260は、例えば会議情報収集部250が会議情報として音声データを取得すると、取得した音声データ及び取得元の装置を識別する端末IDを変換要求と共に言語処理装置300へ送信しても良い。
次に、言語処理装置300について説明する。
本実施形態の言語処理装置300は、端末情報データベース310、企業A用辞書データベース320、企業B用辞書データベース330、企業C用辞書データベース340、音声変換部350を有する。
本実施形態の端末情報データベース310は、A社端末リスト311、B社端末リスト312、C社端末リスト313を有する。
これらの各端末リストは、団体を識別する団体識別情報と、端末IDとを対応付けている。言い換えれば、本実施形態の各端末リストは、ある団体について、その団体に所属する利用者により利用される端末装置500のリストである。ある端末IDで識別される端末装置500は、その端末IDに対応づく団体識別情報の団体に所属する利用者によって利用されるような利用形態を想定している。例えば、企業が従業員に端末装置500を支給し、従業員が支給された端末装置500を利用して業務を行う場合に、企業が支給する端末装置500の端末IDをその企業の端末リストに登録する。つまり、端末装置500の端末IDは、その端末装置500を利用して会議に参加する利用者が所属する団体を特定するためのユーザ情報とも言える。従って、端末装置500を使用しながら会議に参加する利用者の所属する団体を特定する情報として、当該端末装置500が入力できる情報であれば、端末ID以外の情報を用いても構わない。例えば、言語処理装置において端末IDに代えてユーザを識別するユーザIDが登録されても構わない。
さらに、本実施形態の各端末リストは、端末IDに対して、団体名以外にも、端末IDで識別される端末装置500の利用者の名称や所属部署等が対応付けられていても良い。各端末リストの詳細は後述する。
本実施形態の言語処理装置300は、例えば人工知能を有している。本実施形態の音声変換部350は、各辞書データベースを参照し、音声データをテキスト(文字)データへ変換(翻訳)する。本実施形態の音声変換部350は、音声データからテキストデータへの変換を行う度に、入力と出力の関係を学習し、変換の精度を高めて行く機能を有しているものとした。
本実施形態の音声変換部350の処理の詳細は後述する。
次に、本実施形態の電子黒板400と端末装置500について説明する。本実施形態の電子黒板400は、会議支援処理部410、表示制御部420、制御部430、操作制御部440、音声データ取得部450を有する。
会議支援処理部410は、会議を支援するための各種の処理を行う。具体的には、例えば、会議支援サーバ200にアクセスし、会議管理情報DBに登録されている会議リストを取得し、取得した会議リストからいずれの会議に参加するかをユーザに指定させるための入力画面を表示制御部420に表示させる。また、会議支援処理部410は、電子黒板400の画面に対して手入力された内容の画像データを会議支援サーバ200へ送信したりする。
表示制御部420は、電子黒板400における画面表示を制御する。制御部430は、電子黒板400の全体的な動作を制御する。操作制御部440は、電子黒板400の有する操作部材に対する操作を受け付ける。音声データ取得部450は、電子黒板400に備え付けられた集音装置49が収集する音声データを取得し、保持する。
本実施形態の端末装置500は、表示制御部510と、操作制御部520、音声データ取得部530とを有する。表示制御部510は、端末装置500の表示部における表示を制御する。操作制御部520は、端末装置500に対して行われた操作と対応する処理を行う。音声データ取得部530は、端末装置500が有する集音装置58が収集した音声データを取得し、保持する。
次に、本実施形態の会議支援サーバ200と、言語処理装置300と、が有する各データベースについて説明する。
図6は、第一の実施形態の会議支援サーバの会議管理情報データベースの一例を示す図である。
本実施形態の会議管理情報データベース210は、情報の項目として、会議IDを入力する項目と、その会議IDの会議に参加した電子黒板400や端末装置500の端末IDを入力する項目とを有し、これらは対応付けられている。以下の説明では、会議管理情報データベース210において、項目「会議ID」の値と、項目「端末ID」の値とを含む情報を、会議管理情報と呼ぶ。
項目「会議ID」の値は、ユーザからの登録要求に応じて登録された会議を識別するための識別子を示す。項目「会議ID」の値は、例えば会議の進行役となる参加者の端末装置500により、会議が開催されるより前に入力されて良い。
項目「端末ID」の値は、項目「会議ID」の値により特定される会議に参加している参加者が利用している端末装置500の端末IDを示す。端末IDは、端末装置500からインターネット等を利用して会議支援サーバ200にアクセスし、登録された会議のうち未だ開催されていない会議の会議リストから、ユーザが参加する会議を選択して参加を指示する操作をすることで会議支援サーバ200により登録される。より詳細には、ユーザによる参加の指示操作に応じて端末装置500が端末IDと共に会議の参加要求を会議支援サーバ200に送信し、会議支援サーバ200の会議登録部230が、会議管理情報データベース210に、選択された会議の会議IDに対応付けて参加要求と共に送信された端末IDを登録する。
図6の例では、会議ID「001」の会議には、端末ID「A01」、「A02」、「A03」、「A04」の端末装置500の利用者が参加していることがわかる。つまり、本実施形態では、端末IDは、端末装置500を使用しながら会議に参加している利用者を特定する情報となる。
図7は、第一の実施形態の会議情報データベースの一例を示す図である。本実施形態の会議情報データベース220は、情報の項目として、会議ID、端末ID、音声データ、描画データ、テキストデータ、日時を含み、項目「会議ID」と、その他の項目とが対応付けられている。以下の説明では、会議情報データベースにおいて、項目「会議ID」の値と、その他の項目の値とを含む情報を会議情報と呼ぶ。
項目「音声データ」の値は、項目「端末ID」の値が特定する端末装置500の集音装置58等により取得された音声データを示す。項目「描画データ」の値は、例えば、ユーザの入力操作に応じて操作制御部440が表示画面に対し描画処理を行ったタイミングで電子黒板400から送信された、電子黒板400に描画された内容を記憶した画像データを示す。なお、描画データ(画像データ)は、項目「音声データ」の値である音声データが取得したタイミングにおいて記憶してもよい。
項目「テキストデータ」の値は、項目「音声データ」の値である音声データと対応するテキストデータである。項目「テキストデータ」の値は、音声データを言語処理装置300に送信し、変換結果として言語処理装置300から受信したテキストデータを示す。
項目「日時」の値は、項目「音声データ」の値である音声データを取得した日付と時刻を示す。具体的には、項目「日時」の値は、端末装置500から音声データを受信した日付と時刻を示しても良い。
尚、図7の例では、会議情報に、音声データの変換結果であるテキストデータが含まれるものとしたが、これに限定されない。会議情報には、テキストデータは含まれなくても良い。その場合、音声データの変換結果であるテキストデータは、会議情報データベース220以外の記憶領域に格納されていても良い。
図7の例では、会議ID「001」の会議において、2016/9/20の16:50に、端末ID「A01」の端末装置500から、音声データ「A01.mpg」を受信し、電子黒板400から画面データA01.jpgを受信したことがわかる。
この会議情報によれば、会議ID「001」の会議において、2016/9/20の16:50に、端末ID「A01」の端末装置500の利用者が発言した内容と、そのとき電子黒板400に描画されていた画像と、がわかる。
次に、図8を参照して、本実施形態の言語処理装置300の有する端末情報データベース310について説明する。
図8は、第一の実施形態の端末情報データベースの一例を示す図である。
本実施形態の端末情報データベース310は、団体毎、つまり、各団体識別情報に端末IDが対応付けられた端末IDリストを有する。
本実施形態では、A社端末リスト311、B社端末リスト312、C社端末リスト313を有する。
A社端末リスト311は、団体名「A」と、企業Aに所属する利用者が利用している端末装置500の端末IDとが対応付けられている。B社端末リスト312は、団体名「B」と、企業Bに所属する利用者が利用している端末装置500の端末IDとが対応付けられている。C社端末リスト313は、団体名「C」と、企業Cに所属する利用者が利用している端末装置500の端末IDとが対応付けられている。
本実施形態の端末情報データベース310の有する各端末リストは、予め言語処理システム100の管理者が言語処理装置300に格納しておいても良い。
また、本実施形態では、例えば、各端末装置500の利用者が会議に参加する際に、利用者のユーザ情報として、利用者が所属する団体名を端末装置500に対して入力しても良い。この場合、端末装置500は、入力された団体名と、自機の端末IDとを会議支援サーバ200へ送信しても良い。会議支援サーバ200は、この団体名と端末IDとを対応付けて言語処理装置300へ送信し、言語処理装置300は、団体名に対応付いた端末リストに受信した端末IDを追加するようにしても良い。
次に、本実施形態の各辞書データベースについて説明する。以下では、各辞書データベースの一例として、企業A用辞書データベース320について説明する。
図9は、第一の実施形態の企業A用辞書データベースの一例を示す図である。
図9に示す企業A用辞書データベース320では、企業A内の略語の音声と、文字列とが対応付けられている。
図9の例では、例えば企業A内において、「いほ」という単語は、「意見書と補正書」であることがわかる。また、図9の例では、例えば企業A内において、「きょり」という単語は、「拒絶理由通知書」であることがわかる。これにより、音声データをテキストデータに変換したときに「いほ」という単語が得られた場合には、この「いほ」を「意見書と補正書」と訳したテキストデータに書き換えることができる。
なお、辞書データベース320に登録される情報は、上記のような略語と訳語の対応関係を示す情報だけに限らない。例えば、その団体で頻繁に使用され得る単語が企業用語(社内用語)として登録される。例えば、社名である「リコー」を「利口」と訳されることを避けるため、リコーという社名の企業であれば、「リコー」という単語を登録しておくことで、翻訳の精度を上げることができる。
本実施形態において、企業B用辞書データベース330や企業C用辞書データベース340も、図9に示した企業A用辞書データベース320と同様の観点で形成されている。
次に、図10を参照して本実施形態の会議支援サーバ200の会議情報収集部250による会議情報の収集について説明する。図10は、会議情報の収集の仕方を説明する図である。
図10では、参加者A、B、C、D、Xが会議に参加しており、参加者Aは端末ID「A01」の端末装置500A−1を利用し、参加者Bは端末ID「A02」の端末装置500A−2を利用し、参加者Cは端末ID「B01」の端末装置500B−1を利用し、参加者Dは端末ID「B02」の端末装置500B−2を利用している。また、図10の例では、参加者Xが会議の進行役を担っており、電子黒板400を利用している。
ここで、本実施形態では、会議を開始する際に、各参加者は、各参加者が利用する装置において、自身がこれから参加する予定の会議の会議IDと、自身の所属する団体名を含むユーザ情報を入力しても良い。
また、本実施形態では、各参加者が利用する装置の端末IDが、各参加者のユーザIDと同義の情報として扱われていても良い。この場合には、各参加者は、会議に参加する前に、各参加者が利用する装置において、参加する予定の会議の会議IDと、所属する団体名と、自身の利用する装置の端末IDとを入力しても良い。このとき、団体名と端末IDは、装置の利用者のユーザ情報として入力されても良い。
各参加者が利用する装置は、入力された会議ID、団体名等を会議支援サーバ200へ送信する。会議支援サーバ200は、各装置から送信された情報に基づき、会議IDと、各参加者が利用する装置の端末IDとを対応付けた会議管理情報を生成し、会議管理情報データベース210に格納する。
本実施形態では、この手順により、会議支援サーバ200において、各参加者の音声データ等を含む会議情報を収集する準備が完了したことになる。
本実施形態では、音声データは、会議の各参加者が利用している端末装置500の端末IDと対応付けられて会議支援サーバ200に送信される。
例えば、端末装置500A−1を利用している参加者Aの発話は、端末装置500A−1の集音装置58によって音声データとして収集され、端末装置500A−1の端末IDと対応付けられて会議支援サーバ200に送信される。
また、例えば、端末装置500B−1を利用している参加者Cの発話は、端末装置500B−1の集音装置58によって音声データとして収集され、端末装置500B−1の端末IDと対応付けられて会議支援サーバ200に送信される。言い換えれば、端末装置500B−1の集音装置58によって収集された音声データは、端末装置500B−1の利用者のユーザ情報と対応付けられて会議支援サーバ200へ送信される。
また、本実施形態では、会議の進行役を担っている参加者が電子黒板400の利用者となる。図10の例では、電子黒板400の端末IDは、「05」であり、電子黒板400の利用者は、ユーザXである。よって、ユーザXの発話は、電子黒板400の集音装置49によって、音声データとして収集され、端末ID「05」と対応付けられて会議支援サーバ200へ送信される。言い換えれば、電子黒板400の集音装置49によって収集された音声データは、電子黒板400の利用者のユーザ情報と対応付けられて会議支援サーバ200へ送信される。
また、電子黒板400では、電子黒板400の有するユーザX等によってディスプレイに手書き入力された文字や画像を、描画データとして記憶し、電子黒板400の端末IDと対応付けて会議支援サーバ200へ送信する。
会議支援サーバ200では、端末装置500や電子黒板400から送信される音声データや、電子黒板400から送信される描画データに、各データと対応付いた端末IDと子も付いた会議IDを付与し、会議情報として会議情報データベース220へ格納する。
本実施形態では、以上のようにして、会議情報を収集する。
次に、図11を参照して本実施形態の言語処理装置300の音声変換部350の機能について説明する。図11は、第一の実施形態の音声変換部の機能を説明する図である。
本実施形態の音声変換部350は、要求受付部351、音声データ取得部352、辞書特定部353、変換処理部354、出力部355を有する。
要求受付部351は、会議支援サーバ200から、音声データの変換要求を受け付ける。このとき、要求受付部351は、変換要求と共に、変換対象の音声データと端末ID及び会議IDを会議支援サーバ200から取得する。
音声データ取得部352は、変換要求を受け付けると、変換対象となる音声データと、音声データと対応付けられた端末ID及び会議IDとを取得する。
辞書特定部353は、音声データ取得部352により、音声データと共に取得された端末IDに基づき、参照する辞書データベースを特定する。具体的には、辞書特定部353は、端末情報データベース310を参照し、取得する端末IDが含まれる端末リストを特定する。そして、辞書特定部353は、特定した端末リストにより示される団体名から、参照する辞書データベースを特定する。
変換処理部354は、辞書特定部353により特定された辞書データベースを参照して、音声データ取得部352が取得した音声データをテキストデータへ変換する。音声データをテキストデータに変換する処理は、公知の技術により行うことができる。
出力部355は、変換処理部354による変換の結果であるテキストデータを、会議支援サーバ200へ送信する。このとき出力部355は、テキストデータと共に、端末ID及び会議IDを会議支援サーバ200へ送信するものとした。
尚、会議支援サーバ200は、言語処理装置300から変換結果のテキストデータを受信すると、受信したテキストデータと対応付けられた会議IDと端末IDから、テキストデータと対応付けられる会議情報を特定する。そして、会議支援サーバ200は、受信したテキストデータを会議情報データベース220へ格納する。
以下に、図12を参照して、本実施形態の言語処理装置300の処理について説明する。図12は、第一の実施形態の言語処理装置の動作を説明するフローチャートである。
図12では、例えば、会議ID「001」の会議において、端末ID「A01」の端末装置500A−1から取得した音声データ「A01.mpeg」の変換要求が行われたものとして説明する。
本実施形態の音声変換部350は、要求受付部351により、変換要求を受け付けたか否かを判定する(ステップS1201)。ステップS1201において、変換要求を受け付けない場合、音声変換部350は、要求を受け付けるので待機する。
ステップS1201において、変換要求を受け付けた場合、音声変換部350は、音声データ取得部352により、変換対象の音声データと、音声データと対応付いた端末ID「A01」及び会議ID「001」を取得する(ステップS1202)。
続いて、音声変換部350は、辞書特定部353により、端末情報データベース310を参照し、取得した端末ID「A01」を含むA社端末リスト311を特定し、A社端末リスト311と対応する団体名「企業A」と対応する企業A用辞書データベース320を特定する(ステップS1203)。
続いて、音声変換部350は、変換処理部354により、企業A用辞書データベース320を参照して、音声データ「A01.mpeg」をテキストデータに変換する。そして、音声変換部350は、出力部355により、テキストデータに、会議ID「001」と端末ID「A01」を付与し、会議支援サーバ200へ出力し(ステップS1204)、処理を終了する。
したがって、本実施形態によれば、端末ID「A01」の端末装置500A−1から取得した音声データ「A01.mpeg」に多く含まれると推定される企業A特有の単語等も、企業A用辞書データベース320を用いることで、適切なテキストデータへ変換される可能性が高くなる。
したがって、本実施形態によれば、音声データをテキストデータに変換する際の精度を向上させることができる。
(第二の実施形態)
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、音声変換部の処理において、複数の辞書データベースを参照する場合を考慮した点が、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
図13は、第二の実施形態の音声変換部の機能を説明する図である。
本実施形態の音声変換部350Aは、要求受付部351、音声データ取得部352、辞書特定部353A、変換処理部354、出力部355、会議管理情報取得部356、優先順位付与部357を有する。
本実施形態の辞書特定部353Aは、変換要求と共に受け付けた会議IDを含む会議管理情報に含まれる端末IDそれぞれについて、対応する辞書データベースを特定する。
会議管理情報取得部356は、変換要求と共に受け付けた会議IDを含む会議管理情報を、会議支援サーバ200から取得する。
優先順位付与部357は、辞書特定部353により、複数の辞書データベースが特定された場合に、各辞書データベースに対して優先順位を付与する。
以下に、図14を参照して、本実施形態の音声変換部350Aの処理について説明する。図14は、第二の実施形態の音声変換部の処理を説明するフローチャートである。
図14では、例えば、会議ID「002」の会議において、端末ID「B01」の端末装置500B−1から取得した音声データの変換要求が行われたものとして説明する。
図14のステップS1401とステップS1402の処理は、図12のステップS1201とステップS1202の処理と同様であるから、説明を省略する。
ステップ1202において、音声データと共に端末IDと会議IDとを取得すると、音声変換部350Aは、会議管理情報取得部356により、会議支援サーバ200から、会議ID「002」を含む会議管理情報を取得する(ステップS1403)。
続いて、音声変換部350Aは、辞書特定部353Aにより、参照する辞書データベースを特定する(ステップS1404)。
ここで、本実施形態の辞書特定部353Aによる辞書データベースの特定について説明する。
本実施形態の辞書特定部353Aは、会議管理情報取得部356が取得した会議管理情報に含まれる端末IDそれぞれについて、対応する団体を特定する。
会議ID「002」と対応する会議管理情報に含まれる端末IDは、「A03」、「A04」、「A01」、「B01」である(図6参照)。
そこで、辞書特定部353Aは、各端末IDについて、それぞれが含まれる端末IDリストを特定する。端末ID「A03」、「A04」、「A01」のそれぞれは、A社端末リスト311に含まれる。また、端末ID「B01」は、B社端末リスト312に含まれる。
よって、辞書特定部353Aは、A社端末リスト311、B社端末リスト312を特定する。そして、辞書特定部353Aは、A社端末リスト311が示す団体名「企業A」と、B社端末リスト312が示す団体名「企業B」を特定する。
次に、辞書特定部353Aは、「企業A」と対応する企業A用辞書データベース320と、「企業B」と対応する企業B用辞書データベース330を特定する。
続いて、音声変換部350Aは、優先順位付与部357により、複数の辞書データベースが特定されたか否かを判定する(ステップS1405)。ステップS1405で、特定された辞書データベースが1つであった場合、音声変換部350Aは、後述するステップS1407へ進む。
ステップS1405において、複数の辞書データベースが特定された場合、音声変換部350Aは、複数の辞書データベースに対して優先順位を付与する(ステップS1406)。
以下に、本実施形態の優先順位付与部357による優先順位の付与について説明する。本実施形態では、会議管理情報に含まれる端末IDのうち、対応する端末IDの数が多い辞書データベースから順に、優先順位を付与する。
図14の例では、取得した会議管理情報に含まれる端末IDでは、企業Aと対応する端末IDが3つあり、企業Bと対応する端末IDが1つである。
よって、優先順位付与部357は、企業Aと対応する企業A用辞書データベース320の優先順位を最も高くし、企業Bと対応する企業B用辞書データベース330の優先順位をその次とする。
続いて、音声変換部350Aは、変換処理部354により、辞書特定部353Aにより特定された辞書データベースを参照し、変換対象の音声データをテキストデータへ変換し、出力部355により変換結果のテキストデータを会議支援サーバ200へ送信する(ステップS1407)。
ここで、変換処理部354による辞書データベースの参照の仕方について説明する。本実施形態の変換処理部354は、例えば複数の辞書データベースが特定されていた場合には、優先順位の高い辞書データベースから順に参照するようにしても良い。
図14の例では、企業A用辞書データベース320の方が、企業B用辞書データベース33よりも優先順位が高い。
したがって、変換処理部354は、最初に企業A用辞書データベース320を参照し、音声と対応するテキスト(文字列)が存在しない場合には、企業B用辞書データベース330を参照するようにしても良い。
以上のように、本実施形態によれば、1つの会議に、互いに異なる団体に所属している参加者が混在する場合には、各参加者が所属する団体と対応する辞書データベースを特定し、特定した辞書データベースを用いて音声データの変換を行う。
例えば、企業Aに所属する参加者と、企業Bに所属する参加者が会議を行った場合には、企業A特有の用語と、企業B特有の用語とが用いられることが想定される。また、このような場合、企業Aに所属する参加者が、企業B特有の用語を用いることや、その逆の場合も想定される。
本実施形態では、このような場合を想定し、会議に参加している参加者が所属する全ての団体について、対応する辞書データベースを特定し、優先順位を付与している。
よって、本実施形態によれば、互いに異なる団体に所属する参加者が混在する場合でも、適切な辞書データベースを参照することができ、音声データからテキストデータへの変換の精度を向上させることができる。
また、本実施形態では、会議管理情報に含まれる端末IDの数が多い団体から順に、対応する辞書データベースに優先順位を付与するものとしたが、これに限定されない。例えば、優先順位付与部357は、同一の会議IDを含む複数の会議情報のうち、音声データと対応付けられた端末IDの数が多い団体から順に、対応する辞書データベースに優先順位を付与しても良い。
言い換えれば、会議中に、所属する参加者が発言した回数が多い団体と対応する辞書データベースから順に、優先順位を付与しても良い。優先順位を付与するとは、優先度が高いものが上位となるように順位を付与することである。
このようにすれば、会議に参加した人数に関わりなく、参加者の発言回数が多い団体の辞書データベースが優先的に参照されることになる。言い換えれば、団体毎の参加者の人数に関わらず、発言内容と対応した辞書データベースが参照されることになり、音声データをテキストデータに変換する精度を向上させることができる。
また、本実施形態では、例えば、音声データの変換要求が言語処理装置300に送信される際に、変換処理部354に参照させる辞書データベースの優先順位が指定されていても良い。
この場合、例えば音声データの変換要求を行う端末装置500や電子黒板400の利用者が、参照させる辞書データベースの優先順位を入力しても良い。入力された優先順位を示す情報は、変換要求と共に会議支援サーバ200へ送信され、会議支援サーバ200から言語処理装置300へ送信されても良い。
さらには、音声変換部350Aは、辞書特定部353Aにより複数の辞書データベースが特定された場合に、優先順位を付与しなくても良い。この場合、例えば、音声データにおける1つの用語に対して、複数の辞書データベースそれぞれにおいて対応するテキスト(文字列)が存在する際には、各辞書データベースから対応する文字列を取得し、列挙しても良い。
具体的には、例えば音声データにおいて、「AA」という用語があったとする。この用語に対して、ある辞書データベースでは、「AA」と対応する文字列は「AAB」であり、他の辞書データベースでは対応する文字列は「AAC」であったとする。
この場合、本実施形態の変換処理部354は、音声「AA」に対応する文字列として、「AAB/AAC」と表記しても良い。
本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。