JP2015034902A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2015034902A
JP2015034902A JP2013165985A JP2013165985A JP2015034902A JP 2015034902 A JP2015034902 A JP 2015034902A JP 2013165985 A JP2013165985 A JP 2013165985A JP 2013165985 A JP2013165985 A JP 2013165985A JP 2015034902 A JP2015034902 A JP 2015034902A
Authority
JP
Japan
Prior art keywords
document
voice
recognition
information
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013165985A
Other languages
English (en)
Other versions
JP6244731B2 (ja
Inventor
洋平 山根
Yohei Yamane
洋平 山根
基行 鷹合
Motoyuki Takaai
基行 鷹合
昌嗣 外池
Masatsugu Sotoike
昌嗣 外池
木村 俊一
Shunichi Kimura
俊一 木村
拓也 桜井
Takuya Sakurai
拓也 桜井
瑛一 田中
Eiichi Tanaka
瑛一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2013165985A priority Critical patent/JP6244731B2/ja
Publication of JP2015034902A publication Critical patent/JP2015034902A/ja
Application granted granted Critical
Publication of JP6244731B2 publication Critical patent/JP6244731B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正するようにした情報処理装置を提供する。【解決手段】情報処理装置の第1の受付手段は、音声情報を受け付け、第2の受付手段は、前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付け、認識手段は、前記第1の受付手段が受け付けた音声情報を認識し、取得手段は、前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得し、修正手段は、前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する。【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、より精度良く、言語解析を行えるようにすることを課題とし、所定の文脈を解析するとき、局所文脈情報としてその文脈に含まれ、処理対象とされている単語の直近と、さらに直近の単語が処理対象とされ、また、大域文脈情報として、処理対象より前に位置する複数の単語が処理対象とされ、大域文脈情報に関しては、予め複数の単語から構成される文脈に関する確率分布が生成され、クラスタIDが割り当てられており、処理対象とされている大域文脈情報が、どの確率分布に該当するかが判断され、その該当すると判断された確率分布のクラスタIDと、局所文脈情報が用いられ、入力された文章がどのような文章であるかの解析が行われ、言語解析を行う音響認識装置などに適用できることが開示されている。
特許文献2には、認識精度が高く効率の良い文音声の認識を行うことを目的とし、ラティス内での文節系列の探索の過程で、解析の途中結果から得られる文節系列の意味解析を行い、この意味情報と状況推移とから認識すべき分の意味予測を行い、この情報を制約条件として利用することによって、ある状況において期待しない意味を持った文節系列を解析途中で排除したり、文解析がその途中で文節の脱落により続行不可能となることを防止する文解析手段を認識システムに組み入れるようにしたことが開示されている。
特許文献3には、音声認識における候補を適正化し音声認識率を向上させた音声認識装置、音声認識プログラム、並びに音声認識装置に用いる言語モデルの生成方法及び言語モデル生成装置を提供することを課題とし、音声認識装置は、発話の定型パターンから生成された言語モデルが格納された言語モデル格納部と、音声の音響特性を含む音響モデルが格納された音響モデル格納部と、言語モデルと音響モデルとを参照し、音声信号を音響分析して文字情報に変換する音声処理部とを備え、言語モデルは、話者が属する組織のURLによって特定されるサイトから取得された文字情報を含む発話の定型パターンから生成されており、また、音響モデルは、電話音声で学習されたモデルであり、このような言語モデルと音響モデルとを採用しているので、適正な候補から文字情報に変換でき、音声認識率が向上することが開示されている。
特開2008−181537号公報 特開平01−260494号公報 特開2005−208483号公報
本発明は、音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、音声情報を受け付ける第1の受付手段と、前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第2の受付手段と、前記第1の受付手段が受け付けた音声情報を認識する認識手段と、前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段を具備することを特徴とする情報処理装置である。
請求項2の発明は、前記修正手段は、前記認識手段による複数の認識結果が、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正することを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記認識手段は、1つの文節に対して複数の認識結果と、該認識結果についての確信度を出力し、前記修正手段は、1つの文節に対して前記確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、該複数の認識結果のうちのそれぞれと該文節の前又は後の文節の認識結果との組み合わせが、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正することを特徴とする請求項1に記載の情報処理装置である。
請求項4の発明は、前記取得手段は、前記発話者識別情報の発話者が作成した文書であって、前記音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置である。
請求項5の発明は、コンピュータを、音声情報を受け付ける第1の受付手段と、前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第2の受付手段と、前記第1の受付手段が受け付けた音声情報を認識する認識手段と、前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段として機能させるための情報処理プログラムである。
請求項1の情報処理装置によれば、音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正することができる。
請求項2の情報処理装置によれば、複数の認識結果が、文書内で出現する確率を用いて認識結果を修正することができる。
請求項3の情報処理装置によれば、本構成を有していない場合に比較して、効率よく認識結果を修正することができる。
請求項4の情報処理装置によれば、最近の発話者が作成した文書を用いて、認識結果を修正することができる。
請求項5の情報処理プログラムによれば、音声情報の音声を発話した発話者に関連する文書を用いて、その音声情報の認識結果を修正することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示すフローチャートである。 文書テーブルのデータ構造例を示す説明図である。 会議テーブルのデータ構造例を示す説明図である。 本実施の形態による処理例を示すフローチャートである。 本実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な一実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、すべての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、音声を認識するものであって、図1の例に示すように、音声受付モジュール110、音声認識モジュール120、参加者取得モジュール130、文書格納モジュール140、文書取得モジュール150、音声認識結果修正モジュール160、音声認識結果出力モジュール170を有している。情報処理装置100は、複数人が集まって行われる会議等の会合で用いられるものであって、その会合での出席者の発話(音声情報)を認識する。
音声受付モジュール110は、音声認識モジュール120と接続されている。音声受付モジュール110は、音声情報を受け付ける。例えば、マイクから発話者の音声情報を受け付ける。具体的には、マイクは、携帯端末(例えば、スマートフォンを含む携帯電話等)に内蔵されているものであってもよい。また、音声情報は既に録音されたものであってもよい。つまり、ハードディスク(情報処理装置100に内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている音声情報を読み出すこと等が含まれる。
音声認識モジュール120は、音声受付モジュール110、音声認識結果修正モジュール160と接続されている。音声認識モジュール120は、音声受付モジュール110が受け付けた音声情報を認識する。従来からの音声認識技術を用いればよい。例えば、音声認識結果を文節ラティス形式で出力するようにしてもよい。また、音声認識結果を文節ラティス形式以外、例えばコンフュージョンネットワークなどの形式で出力してもよい。文節ラティス形式、コンフュージョンネットワークは、1つの文節に対して複数の認識結果、認識結果についての確信度が含まれている。つまり、音声認識モジュール120は、1つの文節に対して複数の認識結果と、その認識結果についての確信度を出力するようにしてもよい。確信度とは、認識結果の正しさの度合いを、例えば、0から1までの範囲の数値で表現するものである。例えば、音声受付モジュール110が受け付けた音声情報と辞書であるパターンとを比較して、差異がない(特徴空間上で一致する)場合は、確信度が高い。
参加者取得モジュール130は、文書取得モジュール150と接続されている。参加者取得モジュール130は、音声受付モジュール110が受け付けた声情報の音声を発話した発話者を、本実施の形態において一意に識別し得る発話者識別情報(ユーザーID(IDentification))を受け付ける。例えば、発話直前、発話中又は発話直後に、会合への出席者が自らのユーザーIDを、キーボード等を用いて入力するようにしてもよいし、出席者が所有しているICカード、携帯端末等からユーザーIDを読み取るようにしてもよい。携帯端末に内蔵されているマイクを用いる場合は、発話を契機としてその携帯端末内に内蔵されているユーザーIDを抽出してもよい。また、予め出席者の声紋を取得しておき、音声情報の声紋と一致するユーザーIDを抽出してもよい。また、会議室に設置されたカメラが撮影した画像から、発話している出席者の顔を認識し、そのユーザーIDを取得するようにしてもよい。さらに、電子的な会議室予約システム等から、その会合への出席者を特定し、その特定した出席者内から、出席者の顔を認識し、そのユーザーIDを取得するようにしてもよい。
文書格納モジュール140は、文書取得モジュール150と接続されている。文書格納モジュール140は、文書を記憶している。また、その文書を管理するための情報も記憶している。例えば、文書テーブル300を記憶している。図3は、文書テーブル300のデータ構造例を示す説明図である。文書テーブル300は、文書ID欄310、文書名欄320、作成者ID欄330、作成日時欄340、編集者ID欄350、編集日時欄360、閲覧者ID欄370、閲覧日時欄380を有している。文書ID欄310は、文書を本実施の形態において一意に識別するための情報(文書ID)を記憶している。文書名欄320は、その文書の文書名を記憶している。作成者ID欄330は、その文書の作成者(ユーザー)を本実施の形態において一意に識別するための情報(作成者ID、ユーザーID)を記憶している。作成日時欄340は、その文書が作成された作成日時(年、月、日、時、分、秒、秒以下、又はこれらの組み合わせであってもよい)を記憶している。編集者ID欄350は、その文書の編集者(ユーザー)を本実施の形態において一意に識別するための情報(編集者ID、ユーザーID)を記憶している。編集日時欄360は、その文書に対してその編集が行われた編集日時を記憶している。閲覧者ID欄370は、その文書の閲覧者(ユーザー)を本実施の形態において一意に識別するための情報(閲覧者ID、ユーザーID)を記憶している。閲覧日時欄380は、その文書に対してその閲覧が行われた閲覧日時を記憶している。
その文書に対して編集が複数回行われた場合は、編集者ID欄350、編集日時欄360の組がその回数分だけある。また同様に、その文書に対して閲覧が複数回行われた場合は、閲覧者ID欄370、閲覧日時欄380の組がその回数分だけある。
文書格納モジュール140が記憶している文書は、発話者、会議の参加者が関連(具体的には、作成、編集、閲覧等)した文書が含まれていればよい。例えば、発表用資料、議事録等がある。
文書取得モジュール150は、参加者取得モジュール130、文書格納モジュール140、音声認識結果修正モジュール160と接続されている。文書取得モジュール150は、参加者取得モジュール130が受け付けた発話者識別情報に関連する文書を、文書格納モジュール140から取得する。ここで発話者識別情報に関連する文書とは、発話者識別情報の発話者が、作成した文書、編集した文書、閲覧した文書のうち、いずれか又はこれらの組み合わせがある。また、優先順位を付してもよい。例えば、発話者が、作成した文書、編集した文書、閲覧した文書の順位で、音声認識結果修正モジュール160による認識結果修正のための重み付けの係数を重くするように付してもよい。
また、文書取得モジュール150は、発話者識別情報の発話者が作成した文書であって、音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得するようにしてもよい。「発話した時」とは、音声受付モジュール110が音声情報を受け付けた時点、音声情報に発話した日時が付されている場合は、その日時を抽出すればよい。
また、文書取得モジュール150は、会議の参加者識別情報(参加者ID)に関連する文書を、文書格納モジュール140から取得するようにしてもよい。もちろんのことながら、発話者識別情報は参加者識別情報に含まれる。例えば、会議テーブル400から参加者識別情報を取得する。図4は、会議テーブル400のデータ構造例を示す説明図である。会議テーブル400は、会議ID欄410、会議名欄420、日時欄430、参加者ID欄440を有している。会議ID欄410は、会議を本実施の形態において一意に識別するための情報(会議ID)を記憶している。会議名欄420は、その会議の会議名を記憶している。日時欄430は、その会議が行われた日時を記憶している。参加者ID欄440は、その会議において参加した参加者ID(ユーザーID)を記憶している。文書取得モジュール150は、情報処理装置100が受け付けた音声情報が発話された会議における参加者IDを、会議テーブル400から取得する。そして、その参加者IDが、文書テーブル300の作成者ID欄330、編集者ID欄350、閲覧者ID欄370に記憶されている作成者ID、編集者ID、閲覧者IDと合致するか否かを判断し、合致した文書IDから、その文書を取得する。なお、会議テーブル400は、情報処理装置100内に記憶されていてもよいし、会議室の予約管理等を行う会議管理装置等に記憶されているものから通信回線を介して読み込んでもよい。会議の参加者IDに関連する文書についても、前述の重み付けの処理を適用してもよい。
音声認識結果修正モジュール160は、音声認識モジュール120、文書取得モジュール150、音声認識結果出力モジュール170と接続されている。音声認識結果修正モジュール160は、文書取得モジュール150によって取得された文書に基づいて、音声認識モジュール120による認識結果を修正する。
また、音声認識結果修正モジュール160は、音声認識モジュール120よる複数の認識結果が、文書取得モジュール150によって取得された文書内で出現する確率を算出し、その確率に基づいて、音声認識モジュール120による認識結果を修正するようにしてもよい。
また、音声認識結果修正モジュール160は、1つの文節に対して確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、その複数の認識結果のうちのそれぞれとその文節の前又は後の文節の認識結果との組み合わせが、文書取得モジュール150によって取得された文書内で出現する確率を算出し、その確率に基づいて、音声認識モジュール120による認識結果を修正するようにしてもよい。
例えば、文節A、文節B、文節Cがあり、文節A、文節Cに対しては、確信度が予め定められた値より高いものは1つであり、それぞれ認識結果をA1、C1とする。文節Bに対して、複数の認識結果B1、B2があり、ともに予め定められた値より高い場合は、
(1)A1 B1 C1
(2)A1 B2 C1
の組み合わせを作成する。そして、(1)の組み合わせが文書取得モジュール150で取得した文書内で発生する確率、(2)の組み合わせがその文書内で発生する確率をそれぞれ求める。
また、音声認識結果修正モジュール160は、前述のように、文書毎の重みを用いて、確率を算出するようにしてもよい。例えば、確率に重みを乗算して、最終的な確率としてもよい。
音声認識結果出力モジュール170は、音声認識結果修正モジュール160と接続されている。音声認識結果出力モジュール170は、音声認識結果修正モジュール160によって修正された音声認識結果を出力する。音声認識結果を出力するとは、例えば、ディスプレイ等の表示装置に表示すること、会議録データベース等の記憶装置へ音声認識結果を書き込むこと、メモリーカード等の記憶媒体に記憶すること、議事録作成装置等の情報処理装置に渡すこと等が含まれる。
図2は、本実施の形態による処理例を示すフローチャートである。
ステップS202では、音声受付モジュール110が、発話者ID付きの音声データを受け付ける。
ステップS204では、音声認識モジュール120が、ステップS202で受け付けた音声データの音声認識を行う。
ステップS206では、参加者取得モジュール130が、会議の参加者IDを取得する。
ステップS208では、文書取得モジュール150が、文書格納モジュール140から参加者IDの参加者が関与した文書を取得する。参加者IDには、発話者IDが含まれる。したがって、少なくとも発話者IDの発話者が関与した文書を取得する。
ステップS210では、音声認識結果修正モジュール160が、音声認識結果を、ステップS208で取得した文書を用いて修正する。詳細については、図5又は図6の例に示すフローチャートを用いて後述する。
ステップS212では、音声認識結果出力モジュール170が、ステップS210で修正された音声認識結果を出力する。
なお、ステップS202、ステップS204の処理とステップS206、ステップS208の処理は、いずれが先であってもよいし、並列的に処理を行ってもよい。
図5は、本実施の形態による処理例を示すフローチャートである。ステップS210の詳細な処理例(1)を説明するものである。
ステップS502では、文節に対する複数の認識結果から1つの認識結果を抽出する。例えば、音声認識結果として次のものを受け付ける。各行は、1つの文節(1つの区間の音声情報)に対する複数の認識結果を示している。なお、ここで“−”は空白を表すものとする。
・(確認)(各)(悪人)
・(−)(二)
・(の)(−)(な)(が)
・(作業)(産業)
・(に)
・(係る)(かかる)
・(コース)(工数)(ホース)
・(が)(か)(家)(科)
各認識結果から1つの認識結果を抽出する。例えば、「(確認)(各)(悪人)」から(確認)を抽出する。他の行(同じ文節に対する複数の認識結果)からも、1つずつ抽出する。
ステップS504では、ステップS502で抽出した認識結果の組を生成する。前述の例では、「(確認)(−)(の)(作業)(に)(係る)(コース)(が)」という組を生成する。もちろんのことながら、ステップS508で処理が戻って、2回目以降の処理の場合は、違う組み合わせとなる。例えば、「(各)(−)(の)(作業)(に)(係る)(コース)(が)」となる。
ステップS506では、生成した文字列の組の文書における出現確率を算出する。ここでの対象となる文書は、ステップS208で取得した文書である。
出現確率は以下の通り計算する。
出現確率=すべての語が出現する文書数/文書数
ステップS508では、すべての組み合わせを生成したか否かを判断し、生成した場合はステップS510へ進み、それ以外の場合はステップS502へ戻る。つまり、同じ区間に対する複数の認識結果のうち、1つずつ抽出した組み合わせをすべてに対して、ステップS502〜ステップS506までの処理を行うものである。
ステップS510では、認識結果を確定する。具体的には、出現確率が最高値の認識結果の組み合わせを、認識結果として確定する。
ステップS512では、確定した認識結果を音声認識結果出力モジュール170に渡す。
図6は、本実施の形態による処理例を示すフローチャートである。ステップS210の詳細な処理例(2)を説明するものである。図5の例に示したフローチャートの処理では、認識結果の確信度を用いていなかったが、図6では、確信度を用いた処理例を説明する。
ステップS602では、認識結果から確信度が閾値(予め定められた値)以上のものを抽出する。
音声認識結果として、以下に示す文節ラティス例では、一つ目の文節では“確認”、“格”、“悪人”が出力されており、それぞれ文節の確信度として、0.922、0.042、0.037が出力されている。
同様にして2つ目の文節では“−”、“二”が出力されている。ここで“−”は空白を表すものとする。
・(確認:0.922)(各:0.042)(悪人:0.037)
・(−:0.958)(二:0.042)
・(の:0.823)(−:0.094)(な:0.040)(が:0.034)
・(作業:0.952)(産業:0.048)
・(に:1.000)
・(係る:0.592)(かかる:0.409)
・(コース:0.825)(工数:0.120)(ホース:0.055)
・(が:0.899)(か:0.051)(家:0.026)(科:0.024)
音声認識の結果である文節ラティスより、文節の確信度が閾値以上であるものを選び出す。以下に、閾値を“0.1”とした場合の選び出した例を示す。
・(確認:0.922)
・(−:0.958)
・(の:0.823)
・(作業:0.952)
・(に:1.000)
・(係る:0.592)(かかる:0.409)
・(コース:0.825)(工数:0.120)
・(が:0.899)
ステップS604では、1つの文節に対して、抽出した認識結果が複数あるか否かを判断し、複数ある場合はステップS606へ進み、それ以外の場合はステップS612へ進む。つまり、文節中に確信度が閾値以上のものが一つの場合、それをその文節の最終的な解析結果とする。前述の例では、(確認:0.922)、(−:0.958)、(の:0.823)、(作業:0.952)、(に:1.000)、(が:0.899)がそれにあたる。同じ文節中に、確信度が閾値以上のものが複数存在する場合、ステップS606以降の処理を行う。
ステップS606では、確定した認識結果(文節中に確信度が閾値以上のものが一つ)と不確定の認識結果(文節中に確信度が閾値以上のものが複数)のそれぞれとによって構成される組を生成する。つまり、解析結果が確定している語と候補の語が、ステップS208で取得した文書に出現する確率をそれぞれ計算する。このとき、すべての確定している語を用いてもよい。また、品詞情報を用いて自立語や名詞・未知語のみを対象に限定してもよい。つまり、「に」等の助詞、助動詞等を対象から除くようにしてもよい。
組を生成するのに、不確定の認識結果に対して、前又は後の認識結果を組み合わせる。
前述の例では、“係る”と“かかる”のそれぞれについて、「確認、の、作業、に、が、係る」と「確認、の、作業、に、が、かかる」の組を生成する。ここでは、不確定の認識結果が出現した位置で、それまでの確定した認識結果との組を生成している。そして、ステップS610で不確定の認識結果を確定した後に、次の不確定の認識結果まで進んで、組を生成して、これを最後の認識結果まで繰り返すようにしてもよい。
また、ここで、すべての組み合わせ、「確認、の、作業、に、が、係る、コース、が」、「確認、の、作業、に、が、かかる、コース、が」、「確認、の、作業、に、が、係る、工数、が」、「確認、の、作業、に、が、かかる、工数、が」を生成するようにしてもよい。
ステップS608では、生成した文字列の組の文書における出現確率を算出する。
前述の例では、「確認、の、作業、に、が、係る」と「確認、の、作業、に、が、かかる」が出現する確率を計算する。出現確率の算出式は前述の通りである。
例えば、ここでは、「確認、の、作業、に、係る」の出現確率が0.004、「確認、の、作業、に、かかる」の出現確率が0.012だったとする。
ステップS610では、認識結果を確定する。
前述の例では、“かかる”(「確認、の、作業、に、かかる」)の出現確率が“係る”(「確認、の、作業、に、係る」)の出現確率がよりも大きいため、“かかる”を最終的な解析結果として採用する。このとき、最大の出現確率のものを採用してもよいし、出現確率が他よりも閾値以上のものを採用してもよい。後者の場合は先に他の文節の曖昧性を解消してから再度出現確率を計算する。同様にして残りの文節についても最終的な出力結果を決定する。すべての文節について曖昧性を解決したら処理を終了する。
ステップS612では、ステップS610で確定した認識結果を音声認識結果出力モジュール170に渡す。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図7に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU701を用い、記憶装置としてRAM702、ROM703、HD704を用いている。HD704として、例えばハードディスクを用いてもよい。音声受付モジュール110、音声認識モジュール120、参加者取得モジュール130、文書取得モジュール150、音声認識結果修正モジュール160、音声認識結果出力モジュール170等のプログラムを実行するCPU701と、そのプログラムやデータを記憶するRAM702と、本コンピュータを起動するためのプログラム等が格納されているROM703と、文書格納モジュール140としての機能を有する補助記憶装置(フラッシュメモリ等であってもよい)であるHD704と、キーボード、マウス、タッチパネル等に対する利用者の操作に基づいてデータを受け付ける受付装置706と、CRT、液晶ディスプレイ等の出力装置705と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース707、そして、それらをつないでデータのやりとりをするためのバス708により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図7に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図7に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図7に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
110…音声受付モジュール
120…音声認識モジュール
130…参加者取得モジュール
140…文書格納モジュール
150…文書取得モジュール
160…音声認識結果修正モジュール
170…音声認識結果出力モジュール

Claims (5)

  1. 音声情報を受け付ける第1の受付手段と、
    前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第2の受付手段と、
    前記第1の受付手段が受け付けた音声情報を認識する認識手段と、
    前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、
    前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段
    を具備することを特徴とする情報処理装置。
  2. 前記修正手段は、前記認識手段による複数の認識結果が、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記認識手段は、1つの文節に対して複数の認識結果と、該認識結果についての確信度を出力し、
    前記修正手段は、1つの文節に対して前記確信度が予め定められた値より高い又は以上である認識結果が複数ある場合は、該複数の認識結果のうちのそれぞれと該文節の前又は後の文節の認識結果との組み合わせが、前記取得手段によって取得された文書内で出現する確率を算出し、該確率に基づいて、前記認識手段による認識結果を修正する
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記取得手段は、前記発話者識別情報の発話者が作成した文書であって、前記音声情報の音声を発話した時から予め定められた期間内に作成された文書を取得する
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  5. コンピュータを、
    音声情報を受け付ける第1の受付手段と、
    前記音声情報の音声を発話した発話者を一意に識別し得る発話者識別情報を受け付ける第2の受付手段と、
    前記第1の受付手段が受け付けた音声情報を認識する認識手段と、
    前記第2の受付手段が受け付けた発話者識別情報に関連する文書を取得する取得手段と、
    前記取得手段によって取得された文書に基づいて、前記認識手段による認識結果を修正する修正手段
    として機能させるための情報処理プログラム。
JP2013165985A 2013-08-09 2013-08-09 情報処理装置及び情報処理プログラム Active JP6244731B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013165985A JP6244731B2 (ja) 2013-08-09 2013-08-09 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013165985A JP6244731B2 (ja) 2013-08-09 2013-08-09 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2015034902A true JP2015034902A (ja) 2015-02-19
JP6244731B2 JP6244731B2 (ja) 2017-12-13

Family

ID=52543470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013165985A Active JP6244731B2 (ja) 2013-08-09 2013-08-09 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6244731B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11314810B2 (en) * 2019-01-09 2022-04-26 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005809A (ja) * 1999-06-25 2001-01-12 Toshiba Corp 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体
JP2013137460A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001005809A (ja) * 1999-06-25 2001-01-12 Toshiba Corp 文書作成装置、文書作成方法、及び文書作成プログラムが記録された記録媒体
JP2013137460A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11314810B2 (en) * 2019-01-09 2022-04-26 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP6244731B2 (ja) 2017-12-13

Similar Documents

Publication Publication Date Title
US11990132B2 (en) Automated meeting minutes generator
US11545156B2 (en) Automated meeting minutes generation service
US11804218B2 (en) Scalable dynamic class language modeling
US20180197548A1 (en) System and method for diarization of speech, automated generation of transcripts, and automatic information extraction
US20170206897A1 (en) Analyzing textual data
US9672490B2 (en) Procurement system
WO2011093025A1 (ja) 入力支援システム、方法、およびプログラム
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
US20210064822A1 (en) Word lattice augmentation for automatic speech recognition
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JP2017058483A (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
CN110998719A (zh) 信息处理设备和信息处理方法
KR102476099B1 (ko) 회의록 열람 문서 생성 방법 및 그 장치
US11170765B2 (en) Contextual multi-channel speech to text
CN113111658B (zh) 校验信息的方法、装置、设备和存储介质
JP6391925B2 (ja) 音声対話装置、方法およびプログラム
JP6244731B2 (ja) 情報処理装置及び情報処理プログラム
KR20210014174A (ko) 대화록 서비스를 제공하는 컴퓨팅 장치
US11632345B1 (en) Message management for communal account
CN114678018A (zh) 一种语音识别方法、装置、设备、介质及产品
JP2015045668A (ja) 音声認識装置、音声認識方法、およびプログラム
JP2017161787A (ja) 演説反響検知方法、演説反響検知プログラム、及び演説反響検知装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171030

R150 Certificate of patent or registration of utility model

Ref document number: 6244731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350