JP2015034902A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2015034902A JP2015034902A JP2013165985A JP2013165985A JP2015034902A JP 2015034902 A JP2015034902 A JP 2015034902A JP 2013165985 A JP2013165985 A JP 2013165985A JP 2013165985 A JP2013165985 A JP 2013165985A JP 2015034902 A JP2015034902 A JP 2015034902A
- Authority
- JP
- Japan
- Prior art keywords
- document
- voice
- recognition
- information
- recognition result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
請求項1の発明は、音声情報を受け付ける第1の受付手段と、前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第2の受付手段と、前記第1の受付手段が受け付けた音声情報を認識する認識手段と、前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段を具備することを特徴とする情報処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
その文書に対して編集が複数回行われた場合は、編集者ID欄350、編集日時欄360の組がその回数分だけある。また同様に、その文書に対して閲覧が複数回行われた場合は、閲覧者ID欄370、閲覧日時欄380の組がその回数分だけある。
文書格納モジュール140が記憶している文書は、発話者、会議の参加者が関連(具体的には、作成、編集、閲覧等)した文書が含まれていればよい。例えば、発表用資料、議事録等がある。
また、文書取得モジュール150は、発話者識別情報の発話者が作成した文書であって、音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得するようにしてもよい。「発話した時」とは、音声受付モジュール110が音声情報を受け付けた時点、音声情報に発話した日時が付されている場合は、その日時を抽出すればよい。
また、文書取得モジュール150は、会議の参加者識別情報(参加者ID)に関連する文書を、文書格納モジュール140から取得するようにしてもよい。もちろんのことながら、発話者識別情報は参加者識別情報に含まれる。例えば、会議テーブル400から参加者識別情報を取得する。図4は、会議テーブル400のデータ構造例を示す説明図である。会議テーブル400は、会議ID欄410、会議名欄420、日時欄430、参加者ID欄440を有している。会議ID欄410は、会議を本実施の形態において一意に識別するための情報(会議ID)を記憶している。会議名欄420は、その会議の会議名を記憶している。日時欄430は、その会議が行われた日時を記憶している。参加者ID欄440は、その会議において参加した参加者ID(ユーザーID)を記憶している。文書取得モジュール150は、情報処理装置100が受け付けた音声情報が発話された会議における参加者IDを、会議テーブル400から取得する。そして、その参加者IDが、文書テーブル300の作成者ID欄330、編集者ID欄350、閲覧者ID欄370に記憶されている作成者ID、編集者ID、閲覧者IDと合致するか否かを判断し、合致した文書IDから、その文書を取得する。なお、会議テーブル400は、情報処理装置100内に記憶されていてもよいし、会議室の予約管理等を行う会議管理装置等に記憶されているものから通信回線を介して読み込んでもよい。会議の参加者IDに関連する文書についても、前述の重み付けの処理を適用してもよい。
また、音声認識結果修正モジュール160は、音声認識モジュール120よる複数の認識結果が、文書取得モジュール150によって取得された文書内で出現する確率を算出し、その確率に基づいて、音声認識モジュール120による認識結果を修正するようにしてもよい。
また、音声認識結果修正モジュール160は、1つの文節に対して確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、その複数の認識結果のうちのそれぞれとその文節の前又は後の文節の認識結果との組み合わせが、文書取得モジュール150によって取得された文書内で出現する確率を算出し、その確率に基づいて、音声認識モジュール120による認識結果を修正するようにしてもよい。
例えば、文節A、文節B、文節Cがあり、文節A、文節Cに対しては、確信度が予め定められた値より高いものは1つであり、それぞれ認識結果をA1、C1とする。文節Bに対して、複数の認識結果B1、B2があり、ともに予め定められた値より高い場合は、
(1)A1 B1 C1
(2)A1 B2 C1
の組み合わせを作成する。そして、(1)の組み合わせが文書取得モジュール150で取得した文書内で発生する確率、(2)の組み合わせがその文書内で発生する確率をそれぞれ求める。
また、音声認識結果修正モジュール160は、前述のように、文書毎の重みを用いて、確率を算出するようにしてもよい。例えば、確率に重みを乗算して、最終的な確率としてもよい。
ステップS202では、音声受付モジュール110が、発話者ID付きの音声データを受け付ける。
ステップS204では、音声認識モジュール120が、ステップS202で受け付けた音声データの音声認識を行う。
ステップS206では、参加者取得モジュール130が、会議の参加者IDを取得する。
ステップS208では、文書取得モジュール150が、文書格納モジュール140から参加者IDの参加者が関与した文書を取得する。参加者IDには、発話者IDが含まれる。したがって、少なくとも発話者IDの発話者が関与した文書を取得する。
ステップS210では、音声認識結果修正モジュール160が、音声認識結果を、ステップS208で取得した文書を用いて修正する。詳細については、図5又は図6の例に示すフローチャートを用いて後述する。
ステップS212では、音声認識結果出力モジュール170が、ステップS210で修正された音声認識結果を出力する。
なお、ステップS202、ステップS204の処理とステップS206、ステップS208の処理は、いずれが先であってもよいし、並列的に処理を行ってもよい。
ステップS502では、文節に対する複数の認識結果から1つの認識結果を抽出する。例えば、音声認識結果として次のものを受け付ける。各行は、1つの文節(1つの区間の音声情報)に対する複数の認識結果を示している。なお、ここで“−”は空白を表すものとする。
・(確認)(各)(悪人)
・(−)(二)
・(の)(−)(な)(が)
・(作業)(産業)
・(に)
・(係る)(かかる)
・(コース)(工数)(ホース)
・(が)(か)(家)(科)
各認識結果から1つの認識結果を抽出する。例えば、「(確認)(各)(悪人)」から(確認)を抽出する。他の行(同じ文節に対する複数の認識結果)からも、1つずつ抽出する。
ステップS506では、生成した文字列の組の文書における出現確率を算出する。ここでの対象となる文書は、ステップS208で取得した文書である。
出現確率は以下の通り計算する。
出現確率=すべての語が出現する文書数/文書数
ステップS510では、認識結果を確定する。具体的には、出現確率が最高値の認識結果の組み合わせを、認識結果として確定する。
ステップS512では、確定した認識結果を音声認識結果出力モジュール170に渡す。
ステップS602では、認識結果から確信度が閾値(予め定められた値)以上のものを抽出する。
音声認識結果として、以下に示す文節ラティス例では、一つ目の文節では“確認”、“格”、“悪人”が出力されており、それぞれ文節の確信度として、0.922、0.042、0.037が出力されている。
同様にして2つ目の文節では“−”、“二”が出力されている。ここで“−”は空白を表すものとする。
・(確認:0.922)(各:0.042)(悪人:0.037)
・(−:0.958)(二:0.042)
・(の:0.823)(−:0.094)(な:0.040)(が:0.034)
・(作業:0.952)(産業:0.048)
・(に:1.000)
・(係る:0.592)(かかる:0.409)
・(コース:0.825)(工数:0.120)(ホース:0.055)
・(が:0.899)(か:0.051)(家:0.026)(科:0.024)
音声認識の結果である文節ラティスより、文節の確信度が閾値以上であるものを選び出す。以下に、閾値を“0.1”とした場合の選び出した例を示す。
・(確認:0.922)
・(−:0.958)
・(の:0.823)
・(作業:0.952)
・(に:1.000)
・(係る:0.592)(かかる:0.409)
・(コース:0.825)(工数:0.120)
・(が:0.899)
組を生成するのに、不確定の認識結果に対して、前又は後の認識結果を組み合わせる。
前述の例では、“係る”と“かかる”のそれぞれについて、「確認、の、作業、に、が、係る」と「確認、の、作業、に、が、かかる」の組を生成する。ここでは、不確定の認識結果が出現した位置で、それまでの確定した認識結果との組を生成している。そして、ステップS610で不確定の認識結果を確定した後に、次の不確定の認識結果まで進んで、組を生成して、これを最後の認識結果まで繰り返すようにしてもよい。
また、ここで、すべての組み合わせ、「確認、の、作業、に、が、係る、コース、が」、「確認、の、作業、に、が、かかる、コース、が」、「確認、の、作業、に、が、係る、工数、が」、「確認、の、作業、に、が、かかる、工数、が」を生成するようにしてもよい。
前述の例では、「確認、の、作業、に、が、係る」と「確認、の、作業、に、が、かかる」が出現する確率を計算する。出現確率の算出式は前述の通りである。
例えば、ここでは、「確認、の、作業、に、係る」の出現確率が0.004、「確認、の、作業、に、かかる」の出現確率が0.012だったとする。
ステップS610では、認識結果を確定する。
前述の例では、“かかる”(「確認、の、作業、に、かかる」)の出現確率が“係る”(「確認、の、作業、に、係る」)の出現確率がよりも大きいため、“かかる”を最終的な解析結果として採用する。このとき、最大の出現確率のものを採用してもよいし、出現確率が他よりも閾値以上のものを採用してもよい。後者の場合は先に他の文節の曖昧性を解消してから再度出現確率を計算する。同様にして残りの文節についても最終的な出力結果を決定する。すべての文節について曖昧性を解決したら処理を終了する。
ステップS612では、ステップS610で確定した認識結果を音声認識結果出力モジュール170に渡す。
なお、図7に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図7に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図7に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…音声受付モジュール
120…音声認識モジュール
130…参加者取得モジュール
140…文書格納モジュール
150…文書取得モジュール
160…音声認識結果修正モジュール
170…音声認識結果出力モジュール
Claims (5)
- 音声情報を受け付ける第1の受付手段と、
前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第2の受付手段と、
前記第1の受付手段が受け付けた音声情報を認識する認識手段と、
前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、
前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段
を具備することを特徴とする情報処理装置。 - 前記修正手段は、前記認識手段による複数の認識結果が、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記認識手段は、1つの文節に対して複数の認識結果と、該認識結果についての確信度を出力し、
前記修正手段は、1つの文節に対して前記確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、該複数の認識結果のうちのそれぞれと該文節の前又は後の文節の認識結果との組み合わせが、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記取得手段は、前記発話者識別情報の発話者が作成した文書であって、前記音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - コンピュータを、
音声情報を受け付ける第1の受付手段と、
前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第2の受付手段と、
前記第1の受付手段が受け付けた音声情報を認識する認識手段と、
前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、
前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段
として機能させるための情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013165985A JP6244731B2 (ja) | 2013-08-09 | 2013-08-09 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013165985A JP6244731B2 (ja) | 2013-08-09 | 2013-08-09 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015034902A true JP2015034902A (ja) | 2015-02-19 |
JP6244731B2 JP6244731B2 (ja) | 2017-12-13 |
Family
ID=52543470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013165985A Active JP6244731B2 (ja) | 2013-08-09 | 2013-08-09 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6244731B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11314810B2 (en) * | 2019-01-09 | 2022-04-26 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005809A (ja) * | 1999-06-25 | 2001-01-12 | Toshiba Corp | 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体 |
JP2013137460A (ja) * | 2011-12-28 | 2013-07-11 | Toyota Motor Corp | 音声認識装置、方法、及びプログラム |
-
2013
- 2013-08-09 JP JP2013165985A patent/JP6244731B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001005809A (ja) * | 1999-06-25 | 2001-01-12 | Toshiba Corp | 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体 |
JP2013137460A (ja) * | 2011-12-28 | 2013-07-11 | Toyota Motor Corp | 音声認識装置、方法、及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11314810B2 (en) * | 2019-01-09 | 2022-04-26 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP6244731B2 (ja) | 2017-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11990132B2 (en) | Automated meeting minutes generator | |
US11545156B2 (en) | Automated meeting minutes generation service | |
US11804218B2 (en) | Scalable dynamic class language modeling | |
US20180197548A1 (en) | System and method for diarization of speech, automated generation of transcripts, and automatic information extraction | |
US20170206897A1 (en) | Analyzing textual data | |
US9672490B2 (en) | Procurement system | |
WO2011093025A1 (ja) | 入力支援システム、方法、およびプログラム | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
US20210064822A1 (en) | Word lattice augmentation for automatic speech recognition | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP2017058483A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
CN110998719A (zh) | 信息处理设备和信息处理方法 | |
KR102476099B1 (ko) | 회의록 열람 문서 생성 방법 및 그 장치 | |
US11170765B2 (en) | Contextual multi-channel speech to text | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
JP6391925B2 (ja) | 音声対話装置、方法およびプログラム | |
JP6244731B2 (ja) | 情報処理装置及び情報処理プログラム | |
KR20210014174A (ko) | 대화록 서비스를 제공하는 컴퓨팅 장치 | |
US11632345B1 (en) | Message management for communal account | |
CN114678018A (zh) | 一种语音识别方法、装置、设备、介质及产品 | |
JP2015045668A (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP2017161787A (ja) | 演説反響検知方法、演説反響検知プログラム、及び演説反響検知装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6244731 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |