JP4466665B2 - 議事録作成方法、その装置及びそのプログラム - Google Patents

議事録作成方法、その装置及びそのプログラム Download PDF

Info

Publication number
JP4466665B2
JP4466665B2 JP2007063429A JP2007063429A JP4466665B2 JP 4466665 B2 JP4466665 B2 JP 4466665B2 JP 2007063429 A JP2007063429 A JP 2007063429A JP 2007063429 A JP2007063429 A JP 2007063429A JP 4466665 B2 JP4466665 B2 JP 4466665B2
Authority
JP
Japan
Prior art keywords
model
language
conference
minutes
participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007063429A
Other languages
English (en)
Other versions
JP2008225068A (ja
Inventor
周平 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007063429A priority Critical patent/JP4466665B2/ja
Priority to US11/928,922 priority patent/US8108212B2/en
Publication of JP2008225068A publication Critical patent/JP2008225068A/ja
Application granted granted Critical
Publication of JP4466665B2 publication Critical patent/JP4466665B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は議事録を作成するための議事録作成方法、その装置及びそのプログラムに関し、特に音声認識を利用した議事録作成方法、その装置及びそのプログラムに関する。
従来の音声認識を使用し議事録作成を行うシステムの一例が、特許文献1に記載されている。図1に示すように、この従来の議事録作成システムは、クライアント装置907と、自らの会議中の発言の情報を送付すると共に会議支援を受ける会議サーバ装置905から構成されている。このような構成を有する従来のシステムはつぎのように動作する。すなわち、会議の参加者から会議中にリアルタイムで、テキストデータ又は音声による発言を入力装置で受け付け、該音声発言は、発言−テキスト変換処理装置による音声認識処理により、テキストデータに変換し、発言テキスト編集・管理処理装置により、発言の前記テキストデータの少なくとも一部を参加者及び会議責任者に、会議中にリアルタイムで表示すると共に、参加者又は会議責任者からの訂正又は承認の入力を会議中にリアルタイムで、前記発言テキスト編集・管理処理装置において受け付けるようにし、会議の議事進行をリアルタイムで支援することで、参加者の判断や発言などを含めた会議の質の向上を図ると共に、会議時間の短縮も可能とし、又議事録についてもその内容向上を実現することができる。
さらに、従来の音声認識を使用し言語モデルを更新することで認識精度の向上を図るシステムの一例が、特許文献2に記載されている。図2に示すように、この従来の音声認識システムは、入力音声と言語モデル912を用いて音響モデル913と照合する照合部911と、照合部911での照合結果から取り扱う話題を表す重要語を抽出する重要語抽出部914と、重要語に関連するテキストデータを格納しているテキストDB916と、重要語抽出部914で抽出された重要語からテキストDB916を検索し、検索されたテキストデータを元に言語モデルを学習して生成する言語モデル学習部915から構成されている。このような構成を有する従来のシステムはつぎのように動作する。すなわち、入力音声から照合部911は、言語モデル912を用いて音声の特徴を表す音響モデル913と入力音声とを照合する。当初の言語モデル912は、新聞記事などを元に学習して生成された初期言語モデルである。照合部911は、照合の結果、最も高い照合スコアを示した、単語列とその照合スコアからなる認識結果を取得して重要語抽出部914に送出する。重要語抽出部914は、照合部911から送出されてきた認識結果から取り扱う話題を表す重要語を抽出し、抽出した重要語とその重要度を言語モデル学習部915に送出する。言語モデル学習部915は、重要語抽出部914で抽出された重要語をキーとしてテキストDB916を検索してそれに関連するテキストデータを取得し、取得されたテキストデータを元に単語の接続確率を計算するなどして言語モデルを学習する。言語モデル学習部915での学習により生成された言語モデルにより言語モデル912を更新し、更新された言語モデル912と音響モデル913を用いて再度音声認識を行う。取り扱う話題に関連したテキストデータを抽出して言語モデルを学習し、その言語モデルを使用して認識を行うことにより、付与するテキストの精度向上を実現することができる。
さらに、従来の音声認識を使用し言語モデルを更新することで認識精度の向上を図るシステムの一例が、特許文献3に記載されている。図3に示すように、この従来の音声認識システムは、音響モデル管理サーバ952と、言語モデル管理サーバ953と、音響認識装置951から構成されている。特徴的な部分は実施形態4で、ユーザ利用テキスト格納手段及びユーザ利用依存言語モデル構築手段を備え、ユーザが利用したテキストと最新状態に更新された言語データ934を参照に、ユーザが利用したテキストに合わせて言語モデルを構築することである。このような構成を有する従来のシステムはつぎのように動作する。すなわち、言語モデル管理サーバ953のユーザ利用テキスト取得手段は、言語モデル更新指令932を受けて、例えば、ユーザがあらかじめ指定したファイル、ディレクトリを走査することにより、ユーザが参照、あるいは記述したテキストファイルを読み出す。ユーザ利用テキスト格納手段は、ユーザ利用テキスト取得手段によって収集されたテキストを格納する。ユーザ利用テキスト依存言語モデル構築手段は、ユーザ利用テキスト及び更新された言語データ934を参照し、認識精度が高くなるように言語モデルを構築する。ユーザ利用テキストを用いた言語モデルの構築では、例えば、ユーザ利用テキストを特定向けテキストと見なし、ユーザ利用テキスト依存の言語モデルを構築する。このようにして構築された言語モデルは、ユーザが参照あるいは既出したテキストの性質を反映させているため、ユーザが発声する確率の高い言語的性質を含み、より精度の高い認識結果を得ることができる。
しかしながら、音声から議事録及び関連資料のテキスト化を行う際に音声認識による認識率の維持向上が非常に大きな問題になる。例えば特許文献1では、音声認識用辞書を学習させたり、関連ドキュメントDB、専門用語辞書DB及び会議キーワードDBを設けて音声認識する際に用いる情報を格納したりしている。特許文献2は、重要語に関連するテキストデータを格納するテキストDBを設けて、言語モデルはテキストDBを検索して学習させている。特許文献3ではユーザ利用テキストから依存した言語モデルを構築させている。これらの特許文献では、言語モデルの情報追加・更新手段に関して辞書データを的確に一定量に保つ手段は述べられておらず、辞書データが一定量を超えると認識速度及び認識率が低下する。また、言語モデルを作成してから会議の議題・内容に変化が生じた場合、ユーザが手動で追加・更新を行うか、会議を重ねて言語モデルに学習させてからでないと正しい認識結果が表示されない。さらに方言による崩れた発音や単語の違いがある会議参加者が同時に参加する場合の施策は述べられていない。
特開2006−50500号公報(図1、図7及び図9) 特開2005−284209号公報(図1及び図2) 特開2002−091477号公報(図1、図4、図6及び図8)
議事録を作成する場合、会議の参加者が執筆者として会議中に筆記することが必要となり、議事録の聞き取りミス、入力ミスの問題や記載時間と配布のための労力が必要となる。そこで例えば、発明の背景の記述にあるように過去の発明においては音声認識を行い、認識結果をテキスト化し議事録に出力することを提案している。これらの音声認識を使用して議事録を出力する際に、認識速度や認識率が重要な要素であり、そのためには言語モデル・音響モデルを最適に構築・設置する必要がある。過去の発明においては、専門言語モデルを設置する、言語モデルに関連情報を追加することによって認識率の向上施策が述べられているものもある。これらの施策に関して、作成された辞書データを言語モデルに登録した場合、幅広い話題に語彙数が増えるに従って認識速度及び認識率が低下する問題があり、複数の言語モデルを用意した場合でも、手動で切り替える手間やその切り替えミスの問題があった。また、会議において方言で発話された場合、認識率の問題があり、方言用の言語モデル・音響モデルに切り替えて使用した場合でも、手動で切り替える手間やその切り替えミスの問題があった。
そこで、本発明は、音声をテキスト化するために必要となる言語モデル及び音響モデルを各議題毎、各参加者毎に最適にすることを可能とする議事録作成方法、その装置及びそのプログラムを提供することを目的とする。
本発明によれば、入力した音声をその言語のテキストデータとする音声認識ステップと、前記テキストデータを基に、議事録を作成する議事録作成ステップと、入力される言語の方言と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、を備え、前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用する議事録作成方法であって、前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の方言は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の方言を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料を基に、言語モデルを選択することを特徴とする議事録作成方法が提供される。
また、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを基に、議事録を作成する議事録作成手段と、入力される言語の方言と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用する議事録作成装置であって、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の方言は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の方言を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料を基に、言語モデルを選択することを特徴とする議事録作成装置が提供される
更に、本発明によれば、コンピュータを、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを基に、議事録を作成する議事録作成手段と、入力される言語の方言と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用する議事録作成装置であって、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の方言は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の方言を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料を基に、言語モデルを選択することを特徴とする議事録作成装置として機能させるためのプログラムが提供される
最適な言語モデル・音響モデルを会議開催前に自動選択することができ、会議の議題に的確な会議議事録を作成することができる。
本発明は、ネットワークに接続された端末上で音声認識処理を行う際に、会議開催前に予め議題にあった言語モデル・音響モデルに自動変更することで認識率を向上させ、聞き取りづらい方言を標準語に変換した会議議事録作成を行うことを特徴とする。
以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。
本発明を音声認識ソフトウェアとWebサービスに適応した具体例で説明する。図4は会議室A、会議室B、会議開催サーバ・議事録作成サーバ530がネットワーク540で接続されている。会議開催前に会議主催者531が会議開催サーバ530にレジュメ等の会議開催情報を登録する。この会議開催情報を集めた会議開催データベースを元に、議題に最も適した言語モデル及び音響モデルを自動的にWebサービス(550、551、・・・)から選択し、会議開催前に事前にダウンロードを各端末へ行う。会議室Aと会議室Bの各端末(511、512、513、521、522)には音声認識プロセスとIP電話サービスが動作しており、端末に接続されたマイクより会議発言を入力すると、音声がそれぞれの会議室で聞ける。同時に音声認識結果がネットワーク経由で議事録作成サーバ530に送信され議事録データとして登録される。端末から議事録作成サーバ530に接続することにより、議事録を参照できる。これにより会議出席者が筆記することなく、会議情報を記録することができる。
各端末(511、512、513、521、522)で動作する音声認識プロセスは、ダウンロードされた言語モデルに切り替えされた後、音声認識を開始する。これにより話題分野(例:技術、マーケティング、営業、総務・・・)毎に最適な会議議事録を得ることができる。また、音響モデルを同様に自動的に切り替えることにより発言者の方言に合った議事録表示を行うことができる。
次に、本発明の実施形態の構成について図面を参照して詳細に説明する。図5を参照すると、本発明の第1の実施形態は、議事録作成部1010とモデル選択部1020と配布Webサービス部1030とから構成されている。議事録作成部1010には、音声入力手段1101と、音声認識手段1102と、議事録作成手段1103と、議事録表示手段1104を含む。モデル選択部1020には、会議開催予定入力手段1201と、会議開催データベース1202と、モデル選択手段1203を含む。配布Webサービス部1030は言語モデル1301と、音響モデル1302と、モデル配布手段1303を含む。
これらの手段はそれぞれ概略つぎのように動作する。会議開催に先立ち、会議の開催情報やレジュメを会議開催予定入力手段1201にて入力し、会議開催データベース1202に保存する。モデル選択手段1203は会議開催データベース1202の情報を元に適切な配布Webサービスを選択し、モデル配布手段1303にて言語モデル1301及び音響モデル1302を議事録作成部1010にダウンロードする。音声認識手段1102は、音声入力手段1101から入力された発話音声とモデル配布手段1303から得られた辞書データを元に音声認識プロセスを実行し、認識データを出力し、議事録作成手段1103に渡す。議事録作成手段1103は、ネットワークを介して会議参加者分認識データを受信し、議事録データを生成する。議事録表示手段1104は、議事録データをクライアントの画面上に表示する。
次に、図6のシーケンス図、図7及び図8のアクティビティ図を参照して本発明の第1の実施形態の動作について詳細に説明する。まず、会議開催主催者は会議開催前に予め、会議開催予定入力を行い、会議開催予定データを会議開催サーバに登録する(図6の200)。図9に会議開催通知401をXMLデータに変換し、会議開催データ402として登録している例を示している。次に、会議開催サーバは配布サービスを順にサービス数だけ言語モデル、音響モデルが会議議題と言語情報に最適であるサービスがどれかを検索する。図6では会議議題と言語情報を元に問い合わせていて、会議議題と言語モデルが一致していない回答状況を示している(図6の201及び202)。さらに、配布サービスに会議議題と言語情報を元に問い合わせを起こっており、会議議題と言語情報が一致した回答状況を示している(図6の203)。図7で問い合わせから回答までの詳細を示している。
配布WEBサービスからWeb情報を取得し、会議開催データを読み込み301と合わせて音響モデル配布指示302は配布Webサービスの音響モデル検索305に言語・方言情報を送信する。図8では図7の音響モデル配布指示302の詳細を示している。
ユーザ情報読み込み(図8の321)の結果、ユーザ情報から言語情報を取得できる場合、参加者名から国・言語情報を決定する(図8の322、325)。図10に会議開催データ404と共にユーザ情報テーブル405を予め用意して置き、これらのデータを元に会議議題と国・言語情報をモデル選択手段1203に送信する例を示している。参加者の情報が未知で参加者名だけでは国・言語情報が特定できない場合は、会議開催場所を読み込み、場所名から国・言語情報を決定する(図8の323、324)。図11に会議開催データ404と共に会議開催場所テーブル406を予め用意しておきデータを元に会議議題と国・言語情報をモデル選択手段1203に送信する例を示している。このようにしてどの音響モデルを検索手段305の候補にするか絞り込む(図8の326)。
図7の音響モデル検索305は送信された言語・方言情報を元に該当言語を検索する。自サーバに見つからなかった場合、他サーバ検索308をWEBサービス・サーバ数だけ行う。見つかった場合、音響モデル二次検索306において、ユーザの方言情報と一致する音響モデルを確定し、音響モデル配布準備307から配布元URL情報を会議開催サーバに返却する。このようにして音響モデルダウンロード元を決定する。言語モデル配布指示303は配布元URLへ会議内容情報を送信する。図8では言語モデル配布指示303の詳細を示している。
会議内容情報の中の会議議題をテキストマイニングし(図8の331)、マイニング結果から言語モデルを特定できる場合は、モデル接続先情報をこの時点で決定する(図8の335)。マイニング結果から言語モデルを特定できない場合は、レジュメ情報をテキストマイニングし(図8の332)、同時に参考資料格納先から情報をダウンロード、これらの参考資料のテキストマイニングを実施する(図8の333、334)。両方のマイニング結果からモデル接続先情報を決定する(図8の335)。言語モデル検索310は送信された会議内容情報を元に言語モデルを検索する。自サービスに見つからなかった場合、他サービス検索312をWEBサービス数だけ行う。言語モデル配布準備311において、会議内容情報と一致する言語モデルを確定し、該当URL、サービス情報を会議開催サーバに返却する。音響モデル配布指示302、言語モデル配布指示303を会議参加者分繰り返すことにより、会議開催前に辞書データを配布準備する。
会議開催時間を元に開催前に会議開催サーバは会議参加者に参加可能かを確認し(図6の210及び211)、参加可能者は配布サービスから辞書データのダウンロードを行う(図6の212)。会議開催時間になると、会議開催サーバから議事録作成サーバに会議開催データを送信する(図6の221)。これにより、音声認識を使用し会話情報を議事録として受信することが可能となる(図6の222)。会議終了(図6の230)まで議事録作成を行う。
次に、本発明の第1の実施形態の効果について説明する。本発明の第1の実施形態では、会議開催データを元にその議題に合った言語モデル・音響モデルを自動的にダウンロードし、音声認識辞書として適応するように構成されているため、議題に合った認識結果を期待できる(また、本発明の第1の実施形態では、さらに、各地方言→標準語変換を行った言語モデルを用意した場合、ユーザ情報を参照して言語・方言情報と連携するように構成されているため、会話された方言を標準語に変換して議事録を作成できる)。
第1の効果は、会議議題の内容にあった音声−テキスト変換を行い、音声認識精度を向上させることができることにある。
その理由は、会議開催データから認識分野に適した言語モデルを決定、会議開催前に自動的に該当する言語モデルを配布し、辞書を動的に切り替えることができるためである。
第2の効果は、各地方言による発話を認識精度の高い標準語に変換して会議議事録が作成できることにある。
その理由は、会議開催データと会議参加者のユーザ情報の言語情報から、方言−標準語変換を施した言語モデル及び方言の訛りに対応した音響モデルを決定、会議開催前に自動的に該当する言語モデル・音響モデルを配布し、辞書を動的に切り替えることができるためである。
次に、本発明の第2の実施形態の構成について図面を参照して詳細に説明する。図12は第1の発明の実施形態図4に言語モデル作成サービス560を追加した構成である。図13を参照すると、本発明の第2の実施形態の構成は、議事録作成部1010とモデル選択部1020と配布Webサービス部1030とモデル作製Webサービス部1040から構成されている。議事録作成部1010には、音声入力手段1101と、音声認識手段1102と、議事録作成手段1103と、議事録表示手段1104を含む。モデル選択部1020には、会議開催予定入力手段1201と、会議開催データベース1202と、モデル選択手段1203を含む。配布Webサービス部1030は言語モデル1301と、音響モデル1302と、モデル配布手段1303を含む。作成Webサービス部1040は辞書更新手段1401と、辞書情報取得手段1402と、言語モデル作成手段1403を含む。これらの手段はそれぞれ概略つぎのように動作する。会議開催に先立ち、会議の開催情報やレジュメを会議開催予定入力手段1201にて入力し、会議開催データベース1202に保存する。モデル選択手段1203は会議開催データベース1202の情報を元に適切な配布Webサービス部1030を選択し、モデル配布手段1303にて言語モデル1301及び音響モデル1302を議事録作成部1010にダウンロードする。インターネット50等から分野ごとに単語単位で辞書情報を予め集める辞書情報取得手段1402と辞書更新手段1401から得られた辞書情報を元に、言語モデル作成手段1403は言語モデル1301を作成し、的確なWebサービス上に配置する。音声認識手段1102は、音声入力手段1101から入力された発話音声とモデル配布手段1303から得られた辞書データを元に音声認識プロセスを実行し、認識データを出力し、議事録作成手段1103に渡す。議事録作成手段1103は、ネットワークを介して会議参加者分認識データを受信し、議事録データを生成する。議事録表示手段1104は、議事録データをクライアントの画面上に表示する。
次に、図14のシーケンス図及び図15のアクティビティ図を参照して本発明の第2の実施形態の動作について詳細に説明する。まず、会議開催主催者は会議開催前に予め、会議開催予定入力を行い、会議開催予定データを会議開催サーバに登録する(図14の200)。次に、会議開催サーバは配布サービスを順にサービス数だけ言語モデル、音響モデルが議題に最適であるサービスがどれかを検索する。図14では会議議題と言語モデルが一致していない回答状況を示している(図14の201)。さらに、配布サービスに会議議題と言語情報を元に問い合わせが起こっており、同じく会議議題と言語モデルが一致しない回答状況を示している(図14の202)。図15で問い合わせから回答までの詳細を示している。
配布WEBサービスからWeb情報を取得し、会議開催データを読み込み301と合わせて音響モデル配布指示302は配布Webサービスの音響モデル検索305に言語・方言情報を送信する。図15の音響モデル検索305は送信された言語・方言情報を元に該当言語を検索する。自サーバに見つからなかった場合、他サーバ検索308をWEBサービス・サーバ数だけ行う。音響モデル二次検索306において、ユーザの方言情報と一致する音響モデルを確定し、音響モデル配布準備307から配布元URL情報を会議開催サーバに返却する。言語モデル配布指示303は配布元URLへ会議内容情報を送信する。言語モデル検索310は送信された会議内容情報を元に言語モデルを検索する。自サービスに見つからなかった場合、他サービス検索312をWEBサービス数だけ行う。
全てのサービス数を超えても言語モデルが特定できない場合、配布サービスは作成サービスに言語モデル作成問い合わせを行い、議題にあった言語モデルを作成する(図14の203)。
予めWebやSNS等から分野別に得られたテキスト情報を取得し(図15の321)、形態素解析(図15の322)や読み付け(図15の323)を行うことにより、言語モデルを作成する(図15の324)。作成された言語モデルは的確な分野別に言語モデル配布サービスに格納される。格納後、言語モデル検索手段310に言語モデル配布準備311において、会議内容情報と一致する言語モデルを確定し、該当URL、サービス情報を会議開催サーバに返却する。これを会議参加者分繰り返すことにより、会議開催前に辞書データを配布準備する。会議開催時間を元に開催前に会議開催サーバは会議参加者に参加可能かを確認し(図14の210、211)、参加可能者は配布サービスから辞書データのダウンロードを行う(図14の212)。会議開催時間になると、会議開催サーバから議事録作成サーバに会議開催データを送信する(図14の221)。これにより、音声認識を使用し会話情報を議事録として受信することが可能となる(図14の222)。会議終了(図14の230)まで議事録作成を行う。
次に、本発明の第2の実施形態の効果について説明する。本発明の第2の実施形態では、第1の実施形態に加えて該当言語モデルが存在しない場合、予め分野別に辞書情報を集めて置いた情報と会議議題情報から、言語モデルを会議開催前までに作成し、自動的にダウンロードすることで、議題に合った認識結果を期待できる。
次に、本発明の第3の実施形態の構成について図面を参照して説明する。図16を参照すると、本発明の第3の実施形態の構成は、第1、2の実施形態の構成においてイベント受信手段1105を追加した構成図である。すなわち第1および第2の実施形態の構成における議事録作成、モデル選択、配布Webサービス及び作成Webサービスによる処理と同一の処理に加えて、イベント受信手段1105は音声認識手段1102で音声データを認識し、特定の認識キーワードが入力された場合、モデル配布手段1303に配布指示を行う。本発明の第3の実施形態では、会議参加者が特定の言葉を発話することにより、言語モデル・音響モデルを会議中にでもダウンロードすることができる。こうして、変更された議題に合った認識結果を期待できる。
なお、上述した議事録作成方法及びその装置は、ハードウェア、ソフトウェア又はそれらの組合せにより実現することができる。
本発明によれば、スケジューリングされた業務において、多量のデータの中から、データを切り替えて的確な情報を得る必要があるデバイスで、予め関連情報を提出しておくことによりデータ選択を自動的に決定すると言った用途に適用できる。例えば、専門用語が非常に多く出てくるようなコンタクトセンターや裁判所の筆記において、辞書を予め切り替えることにより、的確な認識結果を表示する漢字カナ変換装置といった用途にも適用可能である。
第1の従来例による議事録作成装置を示すブロック図である。 第2の従来例による議事録作成装置を示すブロック図である。 第3の従来例による議事録作成装置を示すブロック図である。 本発明の実施形態による議事録作成装置の構成を示す概念図である。 本発明の実施形態による議事録作成装置の構成を示すブロック図である。 本発明の実施形態による議事録作成装置の動作を示すシーケンス図である。 本発明の実施形態による議事録作成装置の動作を示す第1のアクティビティ図である。 本発明の実施形態による議事録作成装置の動作を示す第2のアクティビティ図である。 本発明の実施形態で利用する会議開催通知及び会議開催データの例を示す図である。 本発明の実施形態で利用する会議開催データ及びユーザ情報テーブルの例を示す図である。 本発明の実施形態で利用する会議開催データ及び開催場所情報テーブルの例を示す図である。 本発明の他の実施形態による議事録作成装置の構成を示す概念図である。 本発明の他の実施形態による議事録作成装置の構成を示すブロック図である。 本発明の他の実施形態による議事録作成装置の動作を示すシーケンス図である。 本発明の他の実施形態による議事録作成装置の動作を示すアクティビティ図である。 本発明の更に他の実施形態による議事録作成装置の構成を示す概念図である。
符号の説明
1010 議事録作成部
1101 音声入力手段
1102 音声認識手段
1103 議事録作成手段
1104 議事録表手段
1105 イベント受信手段
1020 モデル選択部
1201 会議開催予定入力手段
1202 会議開催データベース
1203 モデル選択手段
1030 配布Webサービス部
1301 言語モデル
1302 音響モデル
1303 モデル配布手段
1040 作成Webサービス部
1401 辞書更新手段
1402 辞書情報取得手段
1403 言語モデル作成手段

Claims (3)

  1. 入力した音声をその言語のテキストデータとする音声認識ステップと、
    前記テキストデータを基に、議事録を作成する議事録作成ステップと
    力される言語の方言と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、
    を備え、
    前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用する議事録作成方法であって、
    前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の方言は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の方言を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料を基に、言語モデルを選択することを特徴とする議事録作成方法
  2. 入力した音声をその言語のテキストデータとする音声認識手段と、
    前記テキストデータを基に、議事録を作成する議事録作成手段と
    力される言語の方言と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
    を備え、
    前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用する議事録作成装置であって
    前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の方言は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の方言を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料を基に、言語モデルを選択することを特徴とする議事録作成装置。
  3. コンピュータを
    入力した音声をその言語のテキストデータとする音声認識手段と、
    前記テキストデータを基に、議事録を作成する議事録作成手段と、
    入力される言語の方言と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
    を備え、
    前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用する議事録作成装置であって、
    前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の方言は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の方言を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料を基に、言語モデルを選択することを特徴とする議事録作成装置として機能させるためのプログラム。
JP2007063429A 2007-03-13 2007-03-13 議事録作成方法、その装置及びそのプログラム Expired - Fee Related JP4466665B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007063429A JP4466665B2 (ja) 2007-03-13 2007-03-13 議事録作成方法、その装置及びそのプログラム
US11/928,922 US8108212B2 (en) 2007-03-13 2007-10-30 Speech recognition method, speech recognition system, and server thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007063429A JP4466665B2 (ja) 2007-03-13 2007-03-13 議事録作成方法、その装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2008225068A JP2008225068A (ja) 2008-09-25
JP4466665B2 true JP4466665B2 (ja) 2010-05-26

Family

ID=39763546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007063429A Expired - Fee Related JP4466665B2 (ja) 2007-03-13 2007-03-13 議事録作成方法、その装置及びそのプログラム

Country Status (2)

Country Link
US (1) US8108212B2 (ja)
JP (1) JP4466665B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311824B2 (en) * 2008-10-27 2012-11-13 Nice-Systems Ltd Methods and apparatus for language identification
JP5059036B2 (ja) * 2009-01-30 2012-10-24 株式会社エヌ・ティ・ティ・ドコモ 音声認識サーバ、電話機、音声認識システム、および音声認識方法
WO2010125736A1 (ja) * 2009-04-30 2010-11-04 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、およびコンピュータ読み取り可能な記録媒体
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
JP5582344B2 (ja) * 2010-08-09 2014-09-03 日本電気株式会社 接続管理システム、及びシンクライアントシステムにおける接続管理サーバの連携方法
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
JP5696973B2 (ja) * 2010-11-29 2015-04-08 日本電気株式会社 広告配信システム、広告配信方法及び広告配信プログラム
US9031839B2 (en) * 2010-12-01 2015-05-12 Cisco Technology, Inc. Conference transcription based on conference data
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
US8848021B2 (en) 2012-01-19 2014-09-30 Microsoft Corporation Remote participant placement on a unit in a conference room
JP5731998B2 (ja) * 2012-03-21 2015-06-10 株式会社東芝 対話支援装置、対話支援方法および対話支援プログラム
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
WO2014039828A2 (en) * 2012-09-06 2014-03-13 Simmons Aaron M A method and system for reading fluency training
CN103680498A (zh) * 2012-09-26 2014-03-26 华为技术有限公司 一种语音识别方法和设备
CN102915731B (zh) * 2012-10-10 2019-02-05 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9672818B2 (en) 2013-04-18 2017-06-06 Nuance Communications, Inc. Updating population language models based on changes made by user clusters
US9167091B2 (en) * 2013-09-23 2015-10-20 Siemens Aktiengesellschaft Bidirectional remote user interface for HMI/SCADA using interactive voice phone calls
CN103559879B (zh) * 2013-11-08 2016-01-06 安徽科大讯飞信息科技股份有限公司 语种识别系统中声学特征提取方法及装置
EP3097553B1 (en) * 2014-01-23 2022-06-01 Nuance Communications, Inc. Method and apparatus for exploiting language skill information in automatic speech recognition
US20150309984A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc. Learning language models from scratch based on crowd-sourced user text input
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
US9959863B2 (en) 2014-09-08 2018-05-01 Qualcomm Incorporated Keyword detection using speaker-independent keyword models for user-designated keywords
WO2016106552A1 (en) 2014-12-30 2016-07-07 Harman International Industries, Incorporated Voice recognition-based dialing
US9620120B2 (en) * 2015-05-22 2017-04-11 Kabushiki Kaisha Toshiba Minutes taking system, minutes taking method, and image forming apparatus
US9697824B1 (en) 2015-12-30 2017-07-04 Thunder Power New Energy Vehicle Development Company Limited Voice control system with dialect recognition
US9437191B1 (en) * 2015-12-30 2016-09-06 Thunder Power Hong Kong Ltd. Voice control system with dialect recognition
CN107102990A (zh) * 2016-02-19 2017-08-29 株式会社东芝 对语音进行翻译的方法和装置
CN105764185B (zh) * 2016-03-18 2017-12-12 深圳Tcl数字技术有限公司 交流驱动混合调光电路和电视机
US10937415B2 (en) * 2016-06-15 2021-03-02 Sony Corporation Information processing device and information processing method for presenting character information obtained by converting a voice
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11335347B2 (en) * 2019-06-03 2022-05-17 Amazon Technologies, Inc. Multiple classifications of audio data
CN110428813B (zh) * 2019-07-23 2022-04-22 北京奇艺世纪科技有限公司 一种语音理解的方法、装置、电子设备及介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US5897616A (en) * 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
JP2002091477A (ja) 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3903738B2 (ja) 2001-05-23 2007-04-11 日本電気株式会社 情報記録・検索装置、方法、プログラム、および記録媒体
US6952674B2 (en) * 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
JP2003330485A (ja) 2002-05-10 2003-11-19 Tokai Rika Co Ltd 音声認識装置、音声認識システム及び音声認識方法
US20040024598A1 (en) * 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
JP3840221B2 (ja) 2003-11-06 2006-11-01 キヤノン株式会社 音声認識装置及び方法
JP2005284209A (ja) 2004-03-31 2005-10-13 Kddi Corp 音声認識方式
JP2006050500A (ja) 2004-08-09 2006-02-16 Jfe Systems Inc 会議支援システム
US7542756B2 (en) * 2004-09-28 2009-06-02 Siemens Communications, Inc. Apparatus and method for restoring a conference connection to a cellular telephone

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Also Published As

Publication number Publication date
JP2008225068A (ja) 2008-09-25
US20080228480A1 (en) 2008-09-18
US8108212B2 (en) 2012-01-31

Similar Documents

Publication Publication Date Title
JP4466665B2 (ja) 議事録作成方法、その装置及びそのプログラム
JP4466666B2 (ja) 議事録作成方法、その装置及びそのプログラム
US10410627B2 (en) Automatic language model update
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
WO2018021237A1 (ja) 音声対話装置、音声対話方法、および記録媒体
US20100217591A1 (en) Vowel recognition system and method in speech to text applictions
US20110172989A1 (en) Intelligent and parsimonious message engine
US20040064322A1 (en) Automatic consolidation of voice enabled multi-user meeting minutes
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN107808667A (zh) 声音识别装置以及声音识别方法
JP2018197924A (ja) 情報処理装置、対話処理方法、及び対話処理プログラム
JP2006050500A (ja) 会議支援システム
JP7236669B2 (ja) 音声認識データ処理装置、音声認識データ処理システムおよび音声認識データ処理方法
EP2261818A1 (en) A method for inter-lingual electronic communication
JP2000172483A (ja) 共有仮想画面における音声認識方法及びシステム及び共有仮想画面における音声認識プログラムを格納した記憶媒体
JP2013178384A (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
JP6585288B2 (ja) 知識構築活用システムおよびプログラム
US7860715B2 (en) Method, system and program product for training and use of a voice recognition application
JP6386690B1 (ja) 音声データ最適化システム
Dewasurendra et al. Emergency Communication Application for Speech and Hearing-Impaired Citizens
KR20200118744A (ko) 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법
JP2022144417A (ja) 聞き取り支援装置、聞き取り支援方法および聞き取り支援プログラム
JP2024118839A (ja) 音声認識装置、方法およびそのプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100215

R150 Certificate of patent or registration of utility model

Ref document number: 4466665

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees