JP2015034902A

JP2015034902A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2015034902A
Application number: JP2013165985A
Authority: JP
Inventors: 洋平山根; Yohei Yamane; 基行鷹合; Motoyuki Takaai; 昌嗣外池; Masatsugu Sotoike; 木村　俊一; Shunichi Kimura; 俊一木村; 拓也桜井; Takuya Sakurai; 瑛一田中; Eiichi Tanaka
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2013-08-09
Filing date: 2013-08-09
Publication date: 2015-02-19
Anticipated expiration: 2033-08-09
Also published as: JP6244731B2

Abstract

【課題】音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正するようにした情報処理装置を提供する。【解決手段】情報処理装置の第１の受付手段は、音声情報を受け付け、第２の受付手段は、前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付け、認識手段は、前記第１の受付手段が受け付けた音声情報を認識し、取得手段は、前記第２の受付手段が受け付けた発話者識別情報に関連する文書を取得し、修正手段は、前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する。【選択図】図１

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、より精度良く、言語解析を行えるようにすることを課題とし、所定の文脈を解析するとき、局所文脈情報としてその文脈に含まれ、処理対象とされている単語の直近と、さらに直近の単語が処理対象とされ、また、大域文脈情報として、処理対象より前に位置する複数の単語が処理対象とされ、大域文脈情報に関しては、予め複数の単語から構成される文脈に関する確率分布が生成され、クラスタＩＤが割り当てられており、処理対象とされている大域文脈情報が、どの確率分布に該当するかが判断され、その該当すると判断された確率分布のクラスタＩＤと、局所文脈情報が用いられ、入力された文章がどのような文章であるかの解析が行われ、言語解析を行う音響認識装置などに適用できることが開示されている。

特許文献２には、認識精度が高く効率の良い文音声の認識を行うことを目的とし、ラティス内での文節系列の探索の過程で、解析の途中結果から得られる文節系列の意味解析を行い、この意味情報と状況推移とから認識すべき分の意味予測を行い、この情報を制約条件として利用することによって、ある状況において期待しない意味を持った文節系列を解析途中で排除したり、文解析がその途中で文節の脱落により続行不可能となることを防止する文解析手段を認識システムに組み入れるようにしたことが開示されている。

特許文献３には、音声認識における候補を適正化し音声認識率を向上させた音声認識装置、音声認識プログラム、並びに音声認識装置に用いる言語モデルの生成方法及び言語モデル生成装置を提供することを課題とし、音声認識装置は、発話の定型パターンから生成された言語モデルが格納された言語モデル格納部と、音声の音響特性を含む音響モデルが格納された音響モデル格納部と、言語モデルと音響モデルとを参照し、音声信号を音響分析して文字情報に変換する音声処理部とを備え、言語モデルは、話者が属する組織のＵＲＬによって特定されるサイトから取得された文字情報を含む発話の定型パターンから生成されており、また、音響モデルは、電話音声で学習されたモデルであり、このような言語モデルと音響モデルとを採用しているので、適正な候補から文字情報に変換でき、音声認識率が向上することが開示されている。

特開２００８−１８１５３７号公報特開平０１−２６０４９４号公報特開２００５−２０８４８３号公報

本発明は、音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項１の発明は、音声情報を受け付ける第１の受付手段と、前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第２の受付手段と、前記第１の受付手段が受け付けた音声情報を認識する認識手段と、前記第２の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段を具備することを特徴とする情報処理装置である。

請求項２の発明は、前記修正手段は、前記認識手段による複数の認識結果が、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正することを特徴とする請求項１に記載の情報処理装置である。

請求項３の発明は、前記認識手段は、１つの文節に対して複数の認識結果と、該認識結果についての確信度を出力し、前記修正手段は、１つの文節に対して前記確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、該複数の認識結果のうちのそれぞれと該文節の前又は後の文節の認識結果との組み合わせが、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正することを特徴とする請求項１に記載の情報処理装置である。

請求項４の発明は、前記取得手段は、前記発話者識別情報の発話者が作成した文書であって、前記音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得することを特徴とする請求項１から３のいずれか一項に記載の情報処理装置である。

請求項５の発明は、コンピュータを、音声情報を受け付ける第１の受付手段と、前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第２の受付手段と、前記第１の受付手段が受け付けた音声情報を認識する認識手段と、前記第２の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段として機能させるための情報処理プログラムである。

請求項１の情報処理装置によれば、音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正することができる。

請求項２の情報処理装置によれば、複数の認識結果が、文書内で出現する確率を用いて認識結果を修正することができる。

請求項３の情報処理装置によれば、本構成を有していない場合に比較して、効率よく認識結果を修正することができる。

請求項４の情報処理装置によれば、最近の発話者が作成した文書を用いて、認識結果を修正することができる。

請求項５の情報処理プログラムによれば、音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正することができる。

本実施の形態の構成例についての概念的なモジュール構成図である。本実施の形態による処理例を示すフローチャートである。文書テーブルのデータ構造例を示す説明図である。会議テーブルのデータ構造例を示す説明図である。本実施の形態による処理例を示すフローチャートである。本実施の形態による処理例を示すフローチャートである。本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。

以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図１は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア（コンピュータ・プログラム）、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム（コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム）、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。なお、１つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続（データの授受、指示、データ間の参照関係等）の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、２以上の値（もちろんのことながら、すべての値も含む）が同じであってもよい。また、「Ａである場合、Ｂをする」という意味を有する記載は、「Ａであるか否かを判断し、Ａであると判断した場合はＢをする」の意味で用いる。ただし、Ａであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク（一対一対応の通信接続を含む）等の通信手段で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」（社会システム）にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、外部記憶媒体、通信回線を介した記憶装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）内のレジスタ等を含んでいてもよい。

本実施の形態である情報処理装置１００は、音声を認識するものであって、図１の例に示すように、音声受付モジュール１１０、音声認識モジュール１２０、参加者取得モジュール１３０、文書格納モジュール１４０、文書取得モジュール１５０、音声認識結果修正モジュール１６０、音声認識結果出力モジュール１７０を有している。情報処理装置１００は、複数人が集まって行われる会議等の会合で用いられるものであって、その会合での出席者の発話（音声情報）を認識する。

音声受付モジュール１１０は、音声認識モジュール１２０と接続されている。音声受付モジュール１１０は、音声情報を受け付ける。例えば、マイクから発話者の音声情報を受け付ける。具体的には、マイクは、携帯端末（例えば、スマートフォンを含む携帯電話等）に内蔵されているものであってもよい。また、音声情報は既に録音されたものであってもよい。つまり、ハードディスク（情報処理装置１００に内蔵されているものの他に、ネットワークを介して接続されているもの等を含む）等に記憶されている音声情報を読み出すこと等が含まれる。

音声認識モジュール１２０は、音声受付モジュール１１０、音声認識結果修正モジュール１６０と接続されている。音声認識モジュール１２０は、音声受付モジュール１１０が受け付けた音声情報を認識する。従来からの音声認識技術を用いればよい。例えば、音声認識結果を文節ラティス形式で出力するようにしてもよい。また、音声認識結果を文節ラティス形式以外、例えばコンフュージョンネットワークなどの形式で出力してもよい。文節ラティス形式、コンフュージョンネットワークは、１つの文節に対して複数の認識結果、認識結果についての確信度が含まれている。つまり、音声認識モジュール１２０は、１つの文節に対して複数の認識結果と、その認識結果についての確信度を出力するようにしてもよい。確信度とは、認識結果の正しさの度合いを、例えば、０から１までの範囲の数値で表現するものである。例えば、音声受付モジュール１１０が受け付けた音声情報と辞書であるパターンとを比較して、差異がない（特徴空間上で一致する）場合は、確信度が高い。

参加者取得モジュール１３０は、文書取得モジュール１５０と接続されている。参加者取得モジュール１３０は、音声受付モジュール１１０が受け付けた声情報の音声を発話した発話者を、本実施の形態において一意に識別し得る発話者識別情報（ユーザーＩＤ（ＩＤｅｎｔｉｆｉｃａｔｉｏｎ））を受け付ける。例えば、発話直前、発話中又は発話直後に、会合への出席者が自らのユーザーＩＤを、キーボード等を用いて入力するようにしてもよいし、出席者が所有しているＩＣカード、携帯端末等からユーザーＩＤを読み取るようにしてもよい。携帯端末に内蔵されているマイクを用いる場合は、発話を契機としてその携帯端末内に内蔵されているユーザーＩＤを抽出してもよい。また、予め出席者の声紋を取得しておき、音声情報の声紋と一致するユーザーＩＤを抽出してもよい。また、会議室に設置されたカメラが撮影した画像から、発話している出席者の顔を認識し、そのユーザーＩＤを取得するようにしてもよい。さらに、電子的な会議室予約システム等から、その会合への出席者を特定し、その特定した出席者内から、出席者の顔を認識し、そのユーザーＩＤを取得するようにしてもよい。

文書格納モジュール１４０は、文書取得モジュール１５０と接続されている。文書格納モジュール１４０は、文書を記憶している。また、その文書を管理するための情報も記憶している。例えば、文書テーブル３００を記憶している。図３は、文書テーブル３００のデータ構造例を示す説明図である。文書テーブル３００は、文書ＩＤ欄３１０、文書名欄３２０、作成者ＩＤ欄３３０、作成日時欄３４０、編集者ＩＤ欄３５０、編集日時欄３６０、閲覧者ＩＤ欄３７０、閲覧日時欄３８０を有している。文書ＩＤ欄３１０は、文書を本実施の形態において一意に識別するための情報（文書ＩＤ）を記憶している。文書名欄３２０は、その文書の文書名を記憶している。作成者ＩＤ欄３３０は、その文書の作成者（ユーザー）を本実施の形態において一意に識別するための情報（作成者ＩＤ、ユーザーＩＤ）を記憶している。作成日時欄３４０は、その文書が作成された作成日時（年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい）を記憶している。編集者ＩＤ欄３５０は、その文書の編集者（ユーザー）を本実施の形態において一意に識別するための情報（編集者ＩＤ、ユーザーＩＤ）を記憶している。編集日時欄３６０は、その文書に対してその編集が行われた編集日時を記憶している。閲覧者ＩＤ欄３７０は、その文書の閲覧者（ユーザー）を本実施の形態において一意に識別するための情報（閲覧者ＩＤ、ユーザーＩＤ）を記憶している。閲覧日時欄３８０は、その文書に対してその閲覧が行われた閲覧日時を記憶している。
その文書に対して編集が複数回行われた場合は、編集者ＩＤ欄３５０、編集日時欄３６０の組がその回数分だけある。また同様に、その文書に対して閲覧が複数回行われた場合は、閲覧者ＩＤ欄３７０、閲覧日時欄３８０の組がその回数分だけある。
文書格納モジュール１４０が記憶している文書は、発話者、会議の参加者が関連（具体的には、作成、編集、閲覧等）した文書が含まれていればよい。例えば、発表用資料、議事録等がある。

文書取得モジュール１５０は、参加者取得モジュール１３０、文書格納モジュール１４０、音声認識結果修正モジュール１６０と接続されている。文書取得モジュール１５０は、参加者取得モジュール１３０が受け付けた発話者識別情報に関連する文書を、文書格納モジュール１４０から取得する。ここで発話者識別情報に関連する文書とは、発話者識別情報の発話者が、作成した文書、編集した文書、閲覧した文書のうち、いずれか又はこれらの組み合わせがある。また、優先順位を付してもよい。例えば、発話者が、作成した文書、編集した文書、閲覧した文書の順位で、音声認識結果修正モジュール１６０による認識結果修正のための重み付けの係数を重くするように付してもよい。
また、文書取得モジュール１５０は、発話者識別情報の発話者が作成した文書であって、音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得するようにしてもよい。「発話した時」とは、音声受付モジュール１１０が音声情報を受け付けた時点、音声情報に発話した日時が付されている場合は、その日時を抽出すればよい。
また、文書取得モジュール１５０は、会議の参加者識別情報（参加者ＩＤ）に関連する文書を、文書格納モジュール１４０から取得するようにしてもよい。もちろんのことながら、発話者識別情報は参加者識別情報に含まれる。例えば、会議テーブル４００から参加者識別情報を取得する。図４は、会議テーブル４００のデータ構造例を示す説明図である。会議テーブル４００は、会議ＩＤ欄４１０、会議名欄４２０、日時欄４３０、参加者ＩＤ欄４４０を有している。会議ＩＤ欄４１０は、会議を本実施の形態において一意に識別するための情報（会議ＩＤ）を記憶している。会議名欄４２０は、その会議の会議名を記憶している。日時欄４３０は、その会議が行われた日時を記憶している。参加者ＩＤ欄４４０は、その会議において参加した参加者ＩＤ（ユーザーＩＤ）を記憶している。文書取得モジュール１５０は、情報処理装置１００が受け付けた音声情報が発話された会議における参加者ＩＤを、会議テーブル４００から取得する。そして、その参加者ＩＤが、文書テーブル３００の作成者ＩＤ欄３３０、編集者ＩＤ欄３５０、閲覧者ＩＤ欄３７０に記憶されている作成者ＩＤ、編集者ＩＤ、閲覧者ＩＤと合致するか否かを判断し、合致した文書ＩＤから、その文書を取得する。なお、会議テーブル４００は、情報処理装置１００内に記憶されていてもよいし、会議室の予約管理等を行う会議管理装置等に記憶されているものから通信回線を介して読み込んでもよい。会議の参加者ＩＤに関連する文書についても、前述の重み付けの処理を適用してもよい。

音声認識結果修正モジュール１６０は、音声認識モジュール１２０、文書取得モジュール１５０、音声認識結果出力モジュール１７０と接続されている。音声認識結果修正モジュール１６０は、文書取得モジュール１５０によって取得された文書に基づいて、音声認識モジュール１２０による認識結果を修正する。
また、音声認識結果修正モジュール１６０は、音声認識モジュール１２０よる複数の認識結果が、文書取得モジュール１５０によって取得された文書内で出現する確率を算出し、その確率に基づいて、音声認識モジュール１２０による認識結果を修正するようにしてもよい。
また、音声認識結果修正モジュール１６０は、１つの文節に対して確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、その複数の認識結果のうちのそれぞれとその文節の前又は後の文節の認識結果との組み合わせが、文書取得モジュール１５０によって取得された文書内で出現する確率を算出し、その確率に基づいて、音声認識モジュール１２０による認識結果を修正するようにしてもよい。
例えば、文節Ａ、文節Ｂ、文節Ｃがあり、文節Ａ、文節Ｃに対しては、確信度が予め定められた値より高いものは１つであり、それぞれ認識結果をＡ１、Ｃ１とする。文節Ｂに対して、複数の認識結果Ｂ１、Ｂ２があり、ともに予め定められた値より高い場合は、
（１）Ａ１Ｂ１Ｃ１
（２）Ａ１Ｂ２Ｃ１
の組み合わせを作成する。そして、（１）の組み合わせが文書取得モジュール１５０で取得した文書内で発生する確率、（２）の組み合わせがその文書内で発生する確率をそれぞれ求める。
また、音声認識結果修正モジュール１６０は、前述のように、文書毎の重みを用いて、確率を算出するようにしてもよい。例えば、確率に重みを乗算して、最終的な確率としてもよい。

音声認識結果出力モジュール１７０は、音声認識結果修正モジュール１６０と接続されている。音声認識結果出力モジュール１７０は、音声認識結果修正モジュール１６０によって修正された音声認識結果を出力する。音声認識結果を出力するとは、例えば、ディスプレイ等の表示装置に表示すること、会議録データベース等の記憶装置へ音声認識結果を書き込むこと、メモリーカード等の記憶媒体に記憶すること、議事録作成装置等の情報処理装置に渡すこと等が含まれる。

図２は、本実施の形態による処理例を示すフローチャートである。
ステップＳ２０２では、音声受付モジュール１１０が、発話者ＩＤ付きの音声データを受け付ける。
ステップＳ２０４では、音声認識モジュール１２０が、ステップＳ２０２で受け付けた音声データの音声認識を行う。
ステップＳ２０６では、参加者取得モジュール１３０が、会議の参加者ＩＤを取得する。
ステップＳ２０８では、文書取得モジュール１５０が、文書格納モジュール１４０から参加者ＩＤの参加者が関与した文書を取得する。参加者ＩＤには、発話者ＩＤが含まれる。したがって、少なくとも発話者ＩＤの発話者が関与した文書を取得する。
ステップＳ２１０では、音声認識結果修正モジュール１６０が、音声認識結果を、ステップＳ２０８で取得した文書を用いて修正する。詳細については、図５又は図６の例に示すフローチャートを用いて後述する。
ステップＳ２１２では、音声認識結果出力モジュール１７０が、ステップＳ２１０で修正された音声認識結果を出力する。
なお、ステップＳ２０２、ステップＳ２０４の処理とステップＳ２０６、ステップＳ２０８の処理は、いずれが先であってもよいし、並列的に処理を行ってもよい。

図５は、本実施の形態による処理例を示すフローチャートである。ステップＳ２１０の詳細な処理例（１）を説明するものである。
ステップＳ５０２では、文節に対する複数の認識結果から１つの認識結果を抽出する。例えば、音声認識結果として次のものを受け付ける。各行は、１つの文節（１つの区間の音声情報）に対する複数の認識結果を示している。なお、ここで“−”は空白を表すものとする。
・（確認）（各）（悪人）
・（−）（二）
・（の）（−）（な）（が）
・（作業）（産業）
・（に）
・（係る）（かかる）
・（コース）（工数）（ホース）
・（が）（か）（家）（科）
各認識結果から１つの認識結果を抽出する。例えば、「（確認）（各）（悪人）」から（確認）を抽出する。他の行（同じ文節に対する複数の認識結果）からも、１つずつ抽出する。

ステップＳ５０４では、ステップＳ５０２で抽出した認識結果の組を生成する。前述の例では、「（確認）（−）（の）（作業）（に）（係る）（コース）（が）」という組を生成する。もちろんのことながら、ステップＳ５０８で処理が戻って、２回目以降の処理の場合は、違う組み合わせとなる。例えば、「（各）（−）（の）（作業）（に）（係る）（コース）（が）」となる。
ステップＳ５０６では、生成した文字列の組の文書における出現確率を算出する。ここでの対象となる文書は、ステップＳ２０８で取得した文書である。
出現確率は以下の通り計算する。
出現確率＝すべての語が出現する文書数／文書数

ステップＳ５０８では、すべての組み合わせを生成したか否かを判断し、生成した場合はステップＳ５１０へ進み、それ以外の場合はステップＳ５０２へ戻る。つまり、同じ区間に対する複数の認識結果のうち、１つずつ抽出した組み合わせをすべてに対して、ステップＳ５０２〜ステップＳ５０６までの処理を行うものである。
ステップＳ５１０では、認識結果を確定する。具体的には、出現確率が最高値の認識結果の組み合わせを、認識結果として確定する。
ステップＳ５１２では、確定した認識結果を音声認識結果出力モジュール１７０に渡す。

図６は、本実施の形態による処理例を示すフローチャートである。ステップＳ２１０の詳細な処理例（２）を説明するものである。図５の例に示したフローチャートの処理では、認識結果の確信度を用いていなかったが、図６では、確信度を用いた処理例を説明する。
ステップＳ６０２では、認識結果から確信度が閾値（予め定められた値）以上のものを抽出する。
音声認識結果として、以下に示す文節ラティス例では、一つ目の文節では“確認”、“格”、“悪人”が出力されており、それぞれ文節の確信度として、０．９２２、０．０４２、０．０３７が出力されている。
同様にして２つ目の文節では“−”、“二”が出力されている。ここで“−”は空白を表すものとする。
・（確認：０．９２２）（各：０．０４２）（悪人：０．０３７）
・（−：０．９５８）（二：０．０４２）
・（の：０．８２３）（−：０．０９４）（な：０．０４０）（が：０．０３４）
・（作業：０．９５２）（産業：０．０４８）
・（に：１．０００）
・（係る：０．５９２）（かかる：０．４０９）
・（コース：０．８２５）（工数：０．１２０）（ホース：０．０５５）
・（が：０．８９９）（か：０．０５１）（家：０．０２６）（科：０．０２４）
音声認識の結果である文節ラティスより、文節の確信度が閾値以上であるものを選び出す。以下に、閾値を“０．１”とした場合の選び出した例を示す。
・（確認：０．９２２）
・（−：０．９５８）
・（の：０．８２３）
・（作業：０．９５２）
・（に：１．０００）
・（係る：０．５９２）（かかる：０．４０９）
・（コース：０．８２５）（工数：０．１２０）
・（が：０．８９９）

ステップＳ６０４では、１つの文節に対して、抽出した認識結果が複数あるか否かを判断し、複数ある場合はステップＳ６０６へ進み、それ以外の場合はステップＳ６１２へ進む。つまり、文節中に確信度が閾値以上のものが一つの場合、それをその文節の最終的な解析結果とする。前述の例では、（確認：０．９２２）、（−：０．９５８）、（の：０．８２３）、（作業：０．９５２）、（に：１．０００）、（が：０．８９９）がそれにあたる。同じ文節中に、確信度が閾値以上のものが複数存在する場合、ステップＳ６０６以降の処理を行う。

ステップＳ６０６では、確定した認識結果（文節中に確信度が閾値以上のものが一つ）と不確定の認識結果（文節中に確信度が閾値以上のものが複数）のそれぞれとによって構成される組を生成する。つまり、解析結果が確定している語と候補の語が、ステップＳ２０８で取得した文書に出現する確率をそれぞれ計算する。このとき、すべての確定している語を用いてもよい。また、品詞情報を用いて自立語や名詞・未知語のみを対象に限定してもよい。つまり、「に」等の助詞、助動詞等を対象から除くようにしてもよい。
組を生成するのに、不確定の認識結果に対して、前又は後の認識結果を組み合わせる。
前述の例では、“係る”と“かかる”のそれぞれについて、「確認、の、作業、に、が、係る」と「確認、の、作業、に、が、かかる」の組を生成する。ここでは、不確定の認識結果が出現した位置で、それまでの確定した認識結果との組を生成している。そして、ステップＳ６１０で不確定の認識結果を確定した後に、次の不確定の認識結果まで進んで、組を生成して、これを最後の認識結果まで繰り返すようにしてもよい。
また、ここで、すべての組み合わせ、「確認、の、作業、に、が、係る、コース、が」、「確認、の、作業、に、が、かかる、コース、が」、「確認、の、作業、に、が、係る、工数、が」、「確認、の、作業、に、が、かかる、工数、が」を生成するようにしてもよい。

ステップＳ６０８では、生成した文字列の組の文書における出現確率を算出する。
前述の例では、「確認、の、作業、に、が、係る」と「確認、の、作業、に、が、かかる」が出現する確率を計算する。出現確率の算出式は前述の通りである。
例えば、ここでは、「確認、の、作業、に、係る」の出現確率が０．００４、「確認、の、作業、に、かかる」の出現確率が０．０１２だったとする。
ステップＳ６１０では、認識結果を確定する。
前述の例では、“かかる”（「確認、の、作業、に、かかる」）の出現確率が“係る”（「確認、の、作業、に、係る」）の出現確率がよりも大きいため、“かかる”を最終的な解析結果として採用する。このとき、最大の出現確率のものを採用してもよいし、出現確率が他よりも閾値以上のものを採用してもよい。後者の場合は先に他の文節の曖昧性を解消してから再度出現確率を計算する。同様にして残りの文節についても最終的な出力結果を決定する。すべての文節について曖昧性を解決したら処理を終了する。
ステップＳ６１２では、ステップＳ６１０で確定した認識結果を音声認識結果出力モジュール１７０に渡す。

なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図７に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部（演算部）としてＣＰＵ７０１を用い、記憶装置としてＲＡＭ７０２、ＲＯＭ７０３、ＨＤ７０４を用いている。ＨＤ７０４として、例えばハードディスクを用いてもよい。音声受付モジュール１１０、音声認識モジュール１２０、参加者取得モジュール１３０、文書取得モジュール１５０、音声認識結果修正モジュール１６０、音声認識結果出力モジュール１７０等のプログラムを実行するＣＰＵ７０１と、そのプログラムやデータを記憶するＲＡＭ７０２と、本コンピュータを起動するためのプログラム等が格納されているＲＯＭ７０３と、文書格納モジュール１４０としての機能を有する補助記憶装置（フラッシュメモリ等であってもよい）であるＨＤ７０４と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置７０６と、ＣＲＴ、液晶ディスプレイ等の出力装置７０５と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース７０７、そして、それらをつないでデータのやりとりをするためのバス７０８により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。

前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図７に示すハードウェア構成は、１つの構成例を示すものであり、本実施の形態は、図７に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えばＡＳＩＣ等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図７に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機（スキャナ、プリンタ、複写機、ファックス等のいずれか２つ以上の機能を有している画像処理装置）などに組み込まれていてもよい。

また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい（未満）」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい（未満）」、「以上」、「以下」としてもよい。

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、ブルーレイ・ディスク（Ｂｌｕ−ｒａｙ（登録商標）Ｄｉｓｃ）、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去及び書換可能な読出し専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。

１００…情報処理装置
１１０…音声受付モジュール
１２０…音声認識モジュール
１３０…参加者取得モジュール
１４０…文書格納モジュール
１５０…文書取得モジュール
１６０…音声認識結果修正モジュール
１７０…音声認識結果出力モジュール

Claims

音声情報を受け付ける第１の受付手段と、
前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第２の受付手段と、
前記第１の受付手段が受け付けた音声情報を認識する認識手段と、
前記第２の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、
前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段
を具備することを特徴とする情報処理装置。
前記修正手段は、前記認識手段による複数の認識結果が、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正する
ことを特徴とする請求項１に記載の情報処理装置。
前記認識手段は、１つの文節に対して複数の認識結果と、該認識結果についての確信度を出力し、
前記修正手段は、１つの文節に対して前記確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、該複数の認識結果のうちのそれぞれと該文節の前又は後の文節の認識結果との組み合わせが、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正する
ことを特徴とする請求項１に記載の情報処理装置。
前記取得手段は、前記発話者識別情報の発話者が作成した文書であって、前記音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得する
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
コンピュータを、
音声情報を受け付ける第１の受付手段と、
前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第２の受付手段と、
前記第１の受付手段が受け付けた音声情報を認識する認識手段と、
前記第２の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、
前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段
として機能させるための情報処理プログラム。