JP6810363B2

JP6810363B2 - 情報処理装置、情報処理システム、および情報処理プログラム

Info

Publication number: JP6810363B2
Application number: JP2019011654A
Authority: JP
Inventors: 靖士藪内
Original assignee: Fujitsu Client Computing Ltd
Current assignee: Fujitsu Client Computing Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2021-01-06
Anticipated expiration: 2039-01-25
Also published as: US20200243092A1; JP2020118910A

Description

本発明の実施の形態は、情報処理装置、情報処理システム、および情報処理プログラムに関する。

音声を認識し文字列に変換する技術が知られている。例えば音響モデルを用いて音声を音素に分解し、辞書などを用いて音素を解析することで、音声を文字列に変換する技術が開示されている（例えば、特許文献１参照）。

特開２００３−３２３１８９号公報

音声認識を行う場面では、場面特有の専門用語または造語が用いられる場合がある。しかし、従来技術では、辞書に未登録の用語や造語を音声認識することは困難であり、誤認識が発生する場合があった。

そこで、本発明の課題の一つは、音声認識精度向上を図ることである。

本発明の第１態様にかかる情報処理装置は、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する１または複数の形態素を取得する取得部と、前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定する特定部と、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデルに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、を備える。

また、上記情報処理装置は、前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定する特定部と、複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、を備える。

また、上記情報処理装置の前記更新部は、前記出現頻度が前記基準頻度より大きいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、基準出現確率より高い値に更新し、前記出現頻度が前記基準頻度より小さいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、前記基準出現確率より低い値に更新する。

また、上記情報処理装置の前記更新部は、所定条件を満たした場合、前記言語モデルに含まれる前記出現確率を前記基準出現確率に更新する。

また、上記情報処理装置は、音声データを受付ける受付部と、前記音声データを１または複数の音素に分解する分解部と、１または複数の前記音素を、前記発音辞書および前記言語モデルを用いて解析し、前記音声データを文字列に変換する変換部と、を備える。

また、本発明の第２態様にかかる情報処理システムは、情報処理装置と、前記情報処理装置と通信する端末装置と、を備えた情報処理システムであって、前記情報処理装置は、前記端末装置で生成された予め定めた場面で用いられる原稿に含まれる、テキストデータを構成する１または複数の形態素を取得する取得部と、前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定する特定部と、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデルに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、を備える。

また、本発明の第３態様にかかる情報処理プログラムは、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する１または複数の形態素を取得するステップと、前記形態素の音節を音素に変換し、発音辞書に登録するステップと、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定するステップと、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデルに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新するステップと、をコンピュータに実行させるための情報処理プログラムである。

本発明の上記態様によれば、音声認識精度向上を図ることができる。

図１は、実施の形態の情報処理システムの一例を示す模式図である。図２は、実施の形態の情報処理装置および端末装置の機能ブロック図である。図３は、実施の形態の発音辞書のデータ構成の一例を示す模式図である。図４は、実施の形態の言語モデルのデータ構成の一例を示す模式図である。図５は、実施の形態の認識結果ＤＢのデータ構成の一例を示す模式図である。図６は、実施の形態の出力画面の一例を示す模式図である。図７は、実施の形態の発音辞書への登録および言語モデルの更新の流れの一例を示すシーケンス図である。図８は、実施の形態の情報処理システムで実行される音声認識の流れの一例を示すシーケンス図である。図９は、情報処理装置および端末装置のハードウェア構成図である。

以下、本開示の例示的な実施の形態を開示する。なお、以下に示される実施の形態の構成、ならびに当該構成によってもたらされる作用および効果は、一例である。また、以下の実施の形態は開示の技術を限定するものではない。

図１は、本実施の形態の情報処理システム１の一例を示す模式図である。

情報処理システム１は、情報処理装置１０と、端末装置１２と、を備える。情報処理装置１０と端末装置１２とは、ネットワークＮを介して通信可能に接続されている。

ネットワークＮは、公知の通信網である。ネットワークＮは、例えば、インターネットや、携帯電話網、などである。ネットワークＮは、例えば、ケーブル、トランシーバー、ルーター、スイッチ、無線ＬＡＮアクセスポイント、または無線ＬＡＮ送受信機、などによって実現される。

端末装置１２は、操作者Ｕによって操作される端末である。操作者Ｕは、ユーザの一例である。端末装置１２は、例えば、パーソナルコンピュータ、またはタブレット端末、などである。端末装置１２は、端末装置１２を操作する操作者Ｕの音声を集音し、音声データを情報処理装置１０へ送信する。

本実施の形態では、情報処理システム１は、複数の端末装置１２（端末装置１２Ａ〜端末装置１２Ｃ）を有する。複数の端末装置１２の各々は、互いに異なる操作者Ｕによって操作される。例えば、端末装置１２Ａは操作者Ｕ“Ａ”によって操作され、端末装置１２Ｂは操作者Ｕ“Ｂ”によって操作され、端末装置１２Ｃは操作者Ｕ“Ｃ”によって操作される。

情報処理装置１０は、端末装置１２から受付けた音声データを音声認識し、文字列を出力する（詳細後述）。本実施の形態では、文字列とは、文字列を表すデータである。情報処理装置１０は、例えば、パーソナルコンピュータである。

なお、図１には、情報処理システム１が１台の情報処理装置１０と、３台の端末装置１２と、を備えた構成である場合を一例として示した。しかし、情報処理システム１に含まれる情報処理装置１０の台数は、１台に限定されない。情報処理システム１は、２台以上の情報処理装置１０を備えた構成であってもよい。また、情報処理システム１は、１台、２台、または４台以上の端末装置１２を備えた構成であってもよい。

本実施の形態の情報処理システム１は、１または複数の操作者Ｕが発話する場面に適用される。

場面とは、１または複数の操作者Ｕが原稿に基づいて発話する場面である。場面は、例えば、会議、講義、会合、インタビュー、スピーチ、などの場面である。本実施の形態では、場面が、会議である場合を一例として説明する。なお、場面において発話するユーザは、操作者Ｕに限定されない。例えば、端末装置１２の操作者Ｕ以外のユーザが発話してもよい。

原稿とは、会議などの場面で用いられる資料である。原稿には、テキスト（文字）が含まれる。原稿は、用紙やボードなどの媒体、および、電子化された原稿データ、の少なくとも一方である。原稿は、操作者Ｕなどによって作成される（詳細後述）。

場面では、１または複数の操作者Ｕが、原稿に示されるテキストを読んで音声を発話する行為などにより、会議などが進行する。そして、場面で発話された音声データが端末装置１２によって集音され、情報処理装置１０で音声認識される（詳細後述）。

本実施の形態では、予め定めた場面で原稿に基づいた発話が行われる前に、情報処理装置１０が、音声認識に用いる発音辞書への登録および言語モデルの更新などの処理を行う（詳細後述）。そして、その後、会議などの場面において、この会議で用いる原稿に基づいて１または複数の操作者Ｕが発話した音声を、情報処理装置１０で音声認識する形態を想定して説明する。

次に、情報処理装置１０および端末装置１２の機能的構成を説明する。図２は、情報処理装置１０および端末装置１２の機能ブロック図の一例である。

まず、端末装置１２について説明する。端末装置１２は、制御部２０と、音声入力部２２と、ＵＩ（ユーザ・インターフェース）部２４と、記憶部２６と、通信部２８と、を備える。音声入力部２２、ＵＩ部２４、記憶部２６、および通信部２８と、制御部２０とは、データまたは信号を授受可能に接続されている。

音声入力部２２は、操作者Ｕの音声を集音し、音声データを制御部２０へ出力する。音声入力部２２は、マイクロフォンである。

ＵＩ部２４は、操作者Ｕからの操作指示を受付ける入力機能と、画像を表示する表示機能と、を備える。入力機能は、例えば、キーボード、マウス、などである。表示機能は、例えば、液晶表示装置や、有機ＥＬ（エレクトロルミネッセンス）ディスプレイなどである。ＵＩ部２４は、入力機能と表示機能を一体に備えたタッチパネルであってもよい。

記憶部２６は、各種の情報を記憶する。記憶部２６は、ＨＤＤ（ハードディスクドライブ）などの公知の記憶媒体である。なお、記憶部２６を、ネットワークＮを介して接続された外部装置に設けてもよい。

通信部２８は、情報処理装置１０と通信するための通信インターフェースである。

制御部２０は、取得部２０Ａと、通信制御部２０Ｂと、出力制御部２０Ｃと、を含む。

上記各部は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

取得部２０Ａは、音声入力部２２から音声データを取得する。また、取得部２０Ａは、予め定めた場面で用いられる原稿に含まれるテキストデータを取得する。

例えば、操作者Ｕは、端末装置１２の入力部２４Ｂを操作することで、会議で用いる原稿データを生成する。端末装置１２の制御部２０は、入力部２４Ｂを介して操作者Ｕの入力操作を受付けると、予めインストールされたアプリケーション等を用いて原稿データを生成し、記憶部２６へ記憶する。アプリケーションは、文書生成用の公知のアプリケーションであればよい。文書作成用の公知のアプリケーションは、例えば、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅに含まれるソフトウェア（ワープロソフト（Ｗｏｒｄ）、表計算ソフト（Ｅｘｃｅｌｌ）、プレゼンテーション用ソフト（ＰｏｗｅｒＰｏｉｎｔ））であるが、これに限定されない。

また、制御部２０は、文字の記載された媒体を公知のスキャナ装置などによって読取ることで原稿データを取得し、記憶部２６へ記憶してもよい。また、制御部２０は、ネットワークＮを介して外部装置などから原稿データを読取ることで、原稿データを取得し、記憶部２６へ記憶してもよい。

取得部２０Ａは、記憶部２６から原稿データを読取る。そして、取得部２０Ａは、原稿データに含まれる文字（テキスト）のデータを公知の方法で抽出することで、テキストデータを取得する。

例えば、原稿データがスキャナ装置によって読取ることで取得されたデータであると想定する。この場合、取得部２０Ａは、原稿データを公知の文字認識技術を用いて解析することで、テキストデータを取得する。また、例えば、原稿データが、制御部２０に予めインストールされた公知の文書作成用のアプリケーションを用いて生成されたと想定する。この場合、取得部２０Ａは、原稿データに含まれるテキストデータを公知の方法で抽出することで、テキストデータを取得する。テキストデータの抽出には、例えば、公知のテキスト抽出プログラム（例えば、ｘｄｏｃ２ｔｘｔなど）、または、Ｏｕｔｌｏｏｋなどの公知のアプリケーション等に付与されたプレビュー機能などを用いればよい。

通信制御部２０Ｂは、情報処理装置１０との通信を制御する。

取得部２０Ａが、原稿に含まれるテキストデータを取得した場合、通信制御部２０Ｂは、テキストデータを情報処理装置１０へ送信する。

一方、取得部２０Ａが音声データを取得した場合、通信制御部２０Ｂは、音声データおよび端末装置１２の端末識別情報を、通信部２８を介して情報処理装置１０へ送信する。

端末識別情報は、端末装置１２を識別可能な情報である。本実施の形態では、端末識別情報は、端末装置１２を操作する操作者Ｕの識別情報である場合を、一例として説明する。操作者Ｕの識別情報は、例えば、端末装置１２へのログイン時に用いるログインアカウントなどである。

出力制御部２０Ｃは、通信部２８を介して情報処理装置１０から、音声認識結果を含む出力情報を受付ける。出力制御部２０Ｃは、受付けた出力情報を、表示部２４Ａへ出力する。出力情報の詳細は後述する。

次に、情報処理装置１０について説明する。情報処理装置１０は、制御部３０と、通信部３２と、記憶部３４と、ＵＩ部３６と、を備える。通信部３２、記憶部３４、およびＵＩ部３６と、制御部３０とは、データまたは信号を授受可能に接続されている。

通信部３２は、端末装置１２と通信するための通信インターフェースである。ＵＩ部３６は、ユーザからの操作指示を受付ける入力機能と、画像を表示する表示機能と、を備える。ＵＩ部３６は、入力機能と表示機能を一体に備えたタッチパネルであってもよい。

記憶部３４は、各種の情報を記憶する。記憶部３４は、ＨＤＤなどの公知の記憶媒体である。なお、記憶部３４を、ネットワークＮを介して接続された外部装置に設けてもよい。

本実施の形態では、記憶部３４は、音素モデル３４Ａと、発音辞書３４Ｂと、言語モデル３４Ｃと、認識結果ＤＢ３４Ｄと、を記憶する。記憶部３４に記憶される情報の詳細は後述する。

制御部３０は、取得部３０Ａと、登録部３０Ｂと、特定部３０Ｃと、更新部３０Ｄと、受信部３０Ｅと、受付部３０Ｆと、分解部３０Ｇと、変換部３０Ｈと、判別部３０Ｉと、出力制御部３０Ｊと、を含む。

上記各部は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵなどのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

まず、取得部３０Ａ、登録部３０Ｂ、特定部３０Ｃ、および更新部３０Ｄについて説明する。取得部３０Ａ、登録部３０Ｂ、特定部３０Ｃ、および更新部３０Ｄは、音声認識に用いる発音辞書３４Ｂへの登録および言語モデル３４Ｃの更新を実行するための機能部である。これらの登録および更新は、会議などの場面で原稿に基づいた発話が行われる前に実行される。

取得部３０Ａは、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する、１または複数の形態素を取得する。

本実施の形態では、取得部３０Ａは、原稿に含まれるテキストデータを、端末装置１２から通信部３２を介して受付ける。そして、取得部３０Ａは、受付けたテキストデータを公知の形態素解析方法を用いて解析することで、該テキストデータを１または複数の形態素に分割する。この処理により、取得部３０Ａは、原稿に含まれるテキストデータを構成する１または複数の形態素を抽出し、取得する。

形態素とは、意味を成す表現要素の最小単位であり、一つ以上の音素から構成される。本実施の形態では、形態素は、単独で単語を構成する自由形態素、および、他の形態素とともに用いられる拘束形態素、の少なくとも一方であればよい。なお、情報処理システム１では、形態素に代えて、１または複数の形態素から構成される単語を用いてもよい。

なお、取得部３０Ａは、端末装置１２または外部装置などから原稿データを取得してもよい。この場合、取得部３０Ａは、取得した原稿データを公知の方法で解析することで、該原稿データに含まれるテキストデータを構成する１または複数の形態素を取得すればよい。以下では、原稿に含まれるテキストデータが、複数の形態素から構成される場合を一例として説明する。

登録部３０Ｂは、取得部３０Ａで取得した形態素の音節を音素に変換し、発音辞書３４Ｂへ登録する。

音節とは、形態素の読みを示し、母音、または母音および子音から構成される。登録部３０Ｂは、音素モデル３４Ａを用いて形態素の音節を解析し、解析した音節を音素に変換する。そして、登録部３０Ｂは、形態素と、音節と、音素と、を対応付けて発音辞書３４Ｂへ登録する。

音素モデル３４Ａは、音声を構成する音素と音節（読み）を特定するためのモデルである。音素モデル３４Ａは、音響モデルと称される場合もある。音素モデル３４Ａは、音素ごとにモデル化されている。音素モデル３４Ａには、公知の音素モデルまたは音響モデルを用いればよい。

発音辞書３４Ｂは、後述する言語モデル３４Ｃに登録されている形態素と、音素モデル３４Ａに示される音素と、を対応付けるための辞書である。

図３は、発音辞書３４Ｂのデータ構成の一例を示す模式図である。発音辞書３４Ｂは、形態素と、音節と、音素と、を対応付けたものである。

なお、図３には、１つの形態素に対して、１つの音節が対応付けられる形態を一例として示した。しかし、１つの形態素（単語）に対して、複数の音節（読み）が存在する場合がある。例えば、日本語表記の形態素”天才”の音節には、”てんさい”、”てんざい”、”てんざえ”、”そらさい”、”そらざい”、”そらざえ”、”あめさい”、”あめざい”、”あめざえ”、”あまさい”、”あまざい”、”あまざえ”などの複数種類の音節（読み）が存在する。

このため、登録部３０Ｂは、１つの形態素に対して、複数種類の音節を対応付けて発音辞書３４Ｂへ登録してもよい。この場合、発音辞書３４Ｂには、１つの形態素に対して、複数種類の音節と、複数種類の音節の各々に対応する音素（または音素列）と、が対応付けて登録される。

図２に戻り説明を続ける。登録部３０Ｂは、取得部３０Ａで取得したテキストデータに含まれる複数の形態素の各々ごとに、音節および音素を発音辞書３４Ｂへ登録する。このため、発音辞書３４Ｂには、取得部３０Ａで取得したテキストデータに含まれる全ての形態素の各々に、音節および音素が対応付けて登録される。

言い換えると、発音辞書３４Ｂには、会議などの場面の前に、該場面で用いる原稿に含まれるテキストデータに含まれる複数の形態素の各々と、形態素の音声および音素と、が対応付けて発音辞書３４Ｂへ登録される。

特定部３０Ｃは、取得部３０Ａで取得したテキストデータに含まれる複数の形態素の各々の、該テキストデータ中の出現頻度を特定する。

出現頻度とは、テキストデータに含まれる形態素の総数に対する、複数の形態素の各々の数の割合を示す。特定部３０Ｃは、公知の解析方法を用いて、出現頻度を特定すればよい。

更新部３０Ｄは、言語モデル３４Ｃに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、出現頻度と基準頻度との差に基づいて更新する。出現頻度の特定に用いた形態素とは、言い換えると、該出現頻度の形態素である。言語モデル３４Ｃは、文字列や単語列が言語（例えば、日本語）として適切か否かを評価するためのモデルである。

図４は、言語モデル３４Ｃのデータ構成の一例を示す模式図である。言語モデル３４Ｃは、複数種類の単語列と、複数種類の単語列の各々のテキストデータ中の出現確率と、を対応づけたものである。

単語列は、１または複数の形態素を組み合わせて配列したものである。１つの形態素が１つの単語を構成する場合、単語列は、複数の単語を組み合せて配列したものである。複数種類の単語列は、含まれる形態素の種類、含まれる形態素の数、および形態素の配列順、の少なくとも一つが互いに異なる。

図４には、一例として、第１語、第２語、および第３語、の３つの形態素を配列した単語列を示した。しかし、言語モデル３４Ｃに登録される単語列を構成する形態素の数は、１つ、２つ、４つ以上、であってもよく、３つの形態素の配列に限定されない。

更新部３０Ｄは、テキストデータに含まれる複数の形態素と、複数の形態素の各々の出現頻度と、を特定部３０Ｃから受付ける。そして、更新部３０Ｄは、受付けた複数の出現頻度の各々ごとに、基準頻度との差を算出する。

基準頻度は、予め定めればよい。例えば、基準頻度には、１つの原稿内に含まれる形態素の各々の出現頻度の、平均の値を予め定めればよい。この平均の値の算出に用いる原稿は、場面で用いられる原稿であってもよいし、一般的な場面で用いられる原稿として予め生成されたものであってもよい。

そして、更新部３０Ｄは、出現頻度が基準頻度より大きいほど、言語モデル３４Ｃに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より高い値に更新する。

基準出現確率は、予め定めればよい。例えば、基準出現確率は、基準頻度と同じ値とすればよい。

一方、更新部３０Ｄは、出現頻度が基準頻度より小さいほど、言語モデル３４Ｃに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より低い値に更新する。

すなわち、更新部３０Ｄは、取得部３０Ａで取得したテキストデータに含まれる複数の形態素の各々について、該テキストデータ中の出現頻度が高いほど、該形態素を含む単語列の出現確率を、より大きい値に更新する。一方、更新部３０Ｄは、取得部３０Ａで取得したテキストデータに含まれる複数の形態素の各々について、該テキストデータ中の出現頻度が低いほど、該形態素を含む単語列の出現確率を、より小さい値に更新する。

このように、更新部３０Ｄは、言語モデル３４Ｃに登録されている複数種類の単語列の各々について、原稿中の出現頻度が高い形態素を含む単語列であるほど、対応する出現確率を高い出現確率に更新する。

このため、更新部３０Ｄは、会議などの場面で用いられる原稿に含まれる単語列の出現確率が高くなるように、言語モデル３４Ｃを更新することができる。すなわち、更新部３０Ｄは、音声認識時に、音声データを場面で用いられる特有の形態素を含む文字列に優先的に変換可能となるように、言語モデル３４Ｃを更新することができる。

なお、取得部３０Ａ、登録部３０Ｂ、特定部３０Ｃ、および更新部３０Ｄは、会議などの場面ごとに、該場面で用いられる１または複数の原稿のテキストデータについて、上記処理を実行する。

例えば、取得部３０Ａは、場面を識別する場面識別情報と、原稿のテキストデータと、を端末装置１２から取得すればよい。場面識別情報は、例えば、会議や講演などの場面を一意に識別可能な情報であればよく、原稿を生成する端末装置１２などによって付与されていればよい。

このため、取得部３０Ａ、登録部３０Ｂ、特定部３０Ｃ、および更新部３０Ｄは、会議などの場面ごとに、該場面で用いられる１または複数の原稿のテキストデータを用いて、発音辞書３４Ｂへの登録および言語モデル３４Ｃの更新を実行することができる。言い換えると、情報処理装置１０は、場面ごとに、該場面で用いる原稿に応じた発音辞書３４Ｂへの登録、および言語モデル３４Ｃの更新を実行することができる。

なお、更新部３０Ｄは、言語モデル３４Ｃにおける、場面で用いられる１または複数の原稿の各々のテキストデータに含まれる形態素以外から構成される単語列の出現確率を、基準出現確率に更新することが好ましい。この処理を行うことで、これらの登録や更新の後に続けて開催される場面における音声認識時に、該場面で用いられる形態素の優先順位が高くなるように、言語モデル３４Ｃを更新することができる。すなわち、該場面における音声認識精度の向上を図ることができる。

次に、受信部３０Ｅ、受付部３０Ｆ、分解部３０Ｇ、変換部３０Ｈ、判別部３０Ｉ、および出力制御部３０Ｊについて説明する。

受信部３０Ｅ、受付部３０Ｆ、分解部３０Ｇ、変換部３０Ｈ、判別部３０Ｉ、および出力制御部３０Ｊは、１または複数の操作者Ｕによって発話された音声を音声認識するための機能部である。音声認識は、会議などの場面で実行される。

受信部３０Ｅは、音声データおよび該音声データの音声を集音した端末装置１２の端末識別情報を、端末装置１２から受信する。なお、受信部３０Ｅは、少なくとも音声データを受信すればよい。

会議などの場面では、複数の操作者Ｕの各々によって発話された音声は、複数の操作者Ｕの各々が操作する音声入力部２２によって集音される。端末装置１２は、集音した音声データと端末装置１２の端末識別情報を、情報処理装置１０へ送信する。このため、情報処理装置１０は、複数の端末装置１２の各々から、音声データと端末識別情報を受信する。

分解部３０Ｇは、受信部３０Ｅで受信した音声データを、音素モデル３４Ａを用いて１または複数の音素に分解する。分解部３０Ｇは、公知の方法で、音素モデル３４Ａを用いて音声データを音素に分解すればよい。例えば、分解部３０Ｇは、音声データの特徴を解析し、特徴に最も近い音素を音素モデル３４Ａから導出する処理を繰返すことで、１または複数の音素に分解する。

変換部３０Ｈは、分解部３０Ｇで分解された１または複数の音素を、発音辞書３４Ｂおよび言語モデル３４Ｃを用いて解析し、音声データを１または複数の形態素の文字からなる文字列に変換する。

例えば、変換部３０Ｈは、分解部３０Ｇで分解された１または複数の音素の列に対応する形態素を発音辞書３４Ｂから読取る。１または複数の音素の列とは、音声データに含まれる順に時系列に音素を配列したものである。そして、変換部３０Ｈは、読取った形態素を時系列順に並べた単語列の組合せの内、最も出現確率の高い単語列を採用することで、単語列ごとに音声データを文字列に変換する。

この処理を繰返すことで、変換部３０Ｈは、音声データを音声認識し、文字列に変換する。

判別部３０Ｉは、端末識別情報によって識別される端末装置１２の操作者Ｕを、受信部３０Ｅで受信した音声データの発話者として判別する。例えば、判別部３０Ｉは、端末識別情報を、操作者Ｕの識別情報として用いることで、操作者Ｕを発話者として判別する。なお、判別部３０Ｉは、端末識別情報と操作者Ｕの識別情報を対応付けて予め記憶部３４に記憶してもよい。この場合、判別部３０Ｉは、受信した端末識別情報に対応する操作者Ｕの識別情報を記憶部３４から読取ることで、音声データの発話者を判別すればよい。

出力制御部３０Ｊは、変換部３０Ｈによる音声データの音声認識結果と、判別部３０Ｉによる音声データの発話者の判別結果と、を対応づけて認識結果ＤＢ３４Ｄへ登録する。

図５は、認識結果ＤＢ３４Ｄのデータ構成の一例を示す模式図である。例えば、認識結果ＤＢ３４Ｄは、発話タイミングと、発話者識別情報と、音声認識結果と、を対応付けたものである。

出力制御部３０Ｊは、音声データの受信タイミングを発話タイミングとして認識結果ＤＢ３４Ｄへ登録する。なお、出力制御部３０Ｊは、音声を集音した端末装置１２から、音声データと共に該音声データの音声の集音タイミングを受信してもよい。この場合、出力制御部３０Ｊは、該集音タイミングを、該音声データの発話タイミングとして用いればよい。

また、出力制御部３０Ｊは、判別部３０Ｉで判別された該音声データの発話者の発話者識別情報と、変換部３０Ｈによる音声認識結果と、を対応付けて認識結果ＤＢ３４Ｄへ登録すればよい。発話者識別情報には、端末識別情報を用いてもよい。

音声認識結果とは、変換部３０Ｈで音声データから変換された、文字列（すなわち文字列のデータ）である。

図２に戻り説明を続ける。そして、出力制御部３０Ｊは、音声認識結果を含む出力情報を、表示部３６Ａおよび端末装置１２の少なくとも一方へ出力する。

出力情報は、音声認識結果を少なくとも含む。出力情報は、判別された発話者識別情報および発話タイミングを更に含んでいてもよい。本実施の形態では、出力情報は、音声認識結果と、発話者識別情報と、発話タイミングと、を含む場合を一例として説明する。

なお、出力制御部３０Ｊは、音声データの音声認識結果である文字列を、発話タイミングに沿って配置した出力画面を生成してもよい。そして、出力制御部３０Ｊは、出力画面を出力情報として端末装置１２および表示部３６Ａの少なくとも一方へ出力してもよい。

図６は、出力画面４０の一例を示す模式図である。出力画面４０は、音声認識結果である文字列と、発話タイミングと、発話者識別情報とを、発話タイミングに沿って時系列に配置した画面である。

出力制御部３０Ｊが、出力画面４０を出力情報として表示部３６Ａへ出力することで、情報処理装置１０の表示部３６Ａには、出力画面４０が表示される。また、出力制御部３０Ｊが、出力画面４０を出力情報として、通信部３２を介して端末装置１２へ送信することで、端末装置１２の表示部２４Ａには、出力画面４０が表示される。

このため、会議などの場面に参加中の操作者Ｕは、音声認識結果を容易に確認することができる。また、情報処理装置１０は、音声認識結果に応じた議事録作成を容易に可能な情報を、提供することができる。

なお、場面内で用いられる形態素の出現確率は、場面や時期などに応じて変化すると考えられる。

そこで、更新部３０Ｄは、所定条件を満たした場合、言語モデル３４Ｃに含まれる出現確率を、基準出現確率に更新することが好ましい。

所定条件は、予め定めればよい。所定条件は、例えば、会議などの１つの場面が終了したタイミング、所定時間の経過、予め定めた更新タイミングと一致、などである。

このように、更新部３０Ｄは、所定条件を満たした時に、言語モデル３４Ｃに登録されている出現確率をリセットしてもよい。

また、登録部３０Ｂおよび更新部３０Ｄは、複数の場面の各々ごとに、場面で用いる１または複数の原稿に基づいて、発音辞書３４Ｂへの登録および言語モデル３４Ｃの更新を実行してもよい。

次に、情報処理システム１で実行される情報処理の流れを説明する。

図７は、発音辞書３４Ｂへの登録および言語モデル３４Ｃの更新の流れの一例を示すシーケンス図である。

まず、端末装置１２の取得部２０Ａが、特定の場面で用いられる原稿に含まれるテキストデータを取得する（ステップＳ１００）。

通信制御部２０Ｂは、取得部２０Ａで取得したテキストデータを情報処理装置１０へ送信する（ステップＳ１０２、ステップＳ１０４）。

情報処理装置１０の取得部３０Ａは、端末装置１２から、原稿に含まれるテキストデータを取得する（ステップＳ１０４）。取得部３０Ａは、取得したテキストデータを特定部３０Ｃへ出力する（ステップＳ１０６）。また、取得部３０Ａは、取得したテキストデータから複数の形態素を抽出することで、複数の形態素を取得する（ステップＳ１０８）。

取得部３０Ａは、抽出した複数の形態素を、登録部３０Ｂおよび特定部３０Ｃへ出力する（ステップＳ１１０、ステップＳ１１２）。

登録部３０Ｂは、取得部３０Ａで取得した形態素の音節を音素に変換する（ステップＳ１１４）。そして、登録部３０Ｂは、取得部３０Ａで取得したテキストデータに含まれる複数の形態素の各々ごとに、音節および音素を発音辞書３４Ｂへ登録する（ステップＳ１１６、ステップＳ１１８）。このため、発音辞書３４Ｂには、取得部３０Ａで取得したテキストデータに含まれる全ての形態素の各々に、音節および音素が対応付けて登録された状態となる。

次に、特定部３０Ｃが、取得部３０Ａで取得したテキストデータに含まれる複数の形態素の各々の、該テキストデータ中の出現頻度を特定する（ステップＳ１２０）。そして、特定部３０Ｃは、複数の形態素の各々と、各形態素の出現頻度と、を更新部３０Ｄへ出力する（ステップＳ１２２）。

更新部３０Ｄは、特定部３０Ｃから受付けた複数の形態素の各々ごとに、形態素の出現頻度と基準頻度との差を導出する（ステップＳ１２４）。そして、更新部３０Ｄは、特定部３０Ｃから受付けた複数の形態素の各々ごとに、出現頻度と基準頻度との差に基づいて、言語モデル３４Ｃに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を更新する（ステップＳ１２６、ステップＳ１２８）。

そして、取得部３０Ａ、登録部３０Ｂ、特定部３０Ｃ、および更新部３０Ｄは、上記ステップＳ１００〜ステップＳ１２８によって示される登録更新処理（ステップＳ１）を、同じ場面で用いられる１または複数の原稿のテキストデータの全てについて実行する。

このため、会議などのある特定の場面で用いられる用語や造語などの形態素の登録された発音辞書３４Ｂと、該場面用に更新された言語モデル３４Ｃと、が記憶部３４に記憶された状態となる。

図８は、情報処理システム１で実行される音声認識の流れの一例を示すシーケンス図である。例えば、複数の操作者Ｕの各々が、各々に割当てられた端末装置１２を操作しながら会議などを行う場面を想定する。

端末装置１２の取得部２０Ａは、該端末装置１２の操作者Ｕが発話した音声の音声データを取得する（ステップＳ２００）。端末装置１２の通信制御部２０Ｂは、取得部２０Ａから音声データを受付ける（ステップＳ２０２）。通信制御部２０Ｂは、取得部２０Ａで取得した音声データと、当該端末装置１２の端末識別情報とを、情報処理装置１０へ送信する（ステップＳ２０４）。

情報処理装置１０の受信部３０Ｅは、音声データおよび該音声データの音声を集音した端末装置１２の端末識別情報を受信する。受信部３０Ｅは、受信した端末識別情報を判別部３０Ｉへ出力する（ステップＳ２０６）。また、受信部３０Ｅは、受信した音声データを受付部３０Ｆへ出力する（ステップＳ２０８）。受付部３０Ｆは、受付けた音声データを分解部３０Ｇへ出力する（ステップＳ２１０）。

分解部３０Ｇは、受付けた音声データを、音素モデル３４Ａを用いて１または複数の音素に分解する（ステップＳ２１２、ステップＳ２１４）。そして、分解部３０Ｇは、音声Ｄエータに含まれる複数の音素の列を、変換部３０Ｈへ出力する（ステップＳ２１６）。

変換部３０Ｈは、分解部３０Ｇで分解された複数の音素の列を、発音辞書３４Ｂおよび言語モデル３４Ｃを用いて解析し、音声データを複数の形態素からなる文字列に変換する（ステップＳ２１８、ステップＳ２２０）。変換部３０Ｈは、音声データに含まれる音素の列を文字列に変換することで、音声データを音声認識する。そして、変換部３０Ｈは、音声データの音声認識結果である文字列を、出力制御部３０Ｊへ出力する（ステップＳ２２２）。

判別部３０Ｉは、ステップＳ２０６で受付けた端末識別情報によって識別される端末装置１２の操作者Ｕを、受信部３０Ｅで受信した音声データの発話者として判別する（ステップＳ２２４）。そして、判別部３０Ｉは、発話者を示す情報（例えば、発話者識別情報または端末識別情報）を、出力制御部３０Ｊへ出力する（ステップＳ２２６）。

出力制御部３０Ｊは、変換部３０Ｈによる音声データの音声認識結果と、判別部３０Ｉによる音声データの発話者の判別結果と、を対応づけて認識結果ＤＢ３４Ｄへ登録する（ステップＳ２２８）。

出力制御部３０Ｊは、音声認識結果を含む出力情報を、表示部３６Ａおよび端末装置１２の少なくとも一方へ出力する（ステップＳ２３０、ステップＳ２３２、ステップＳ２３４）。

端末装置１２の出力制御部２０Ｃは、通信部２８を介して情報処理装置１０から、音声認識結果を含む出力情報を受付ける（ステップＳ２３６）。出力制御部２０Ｃは、受付けた出力情報を、表示部２４Ａへ出力する（ステップＳ２３８）。そして、本ルーチンを終了する。

情報処理システム１では、場面ごとに、ステップＳ２００〜ステップＳ２３８の音声認識処理を実行する（ステップＳ２）。

なお、取得部３０Ａ、登録部３０Ｂ、特定部３０Ｃ、および更新部３０Ｄによって直前に更新された言語モデル３４Ｃに対応する場面とは異なる場面（例えば他の会議）で、音声認識を行う場合がある。この場合、情報処理装置１０の制御部３０は、場面を識別する場面識別情報ごとに、場面識別情報に対応付けて発音辞書３４Ｂ、言語モデル３４Ｃ、および認識結果ＤＢ３４Ｄを記憶部３４へ記憶しておけばよい。そして、情報処理装置１０の制御部３０は、音声認識処理を実行する場面の場面識別情報に対応する発音辞書３４Ｂ、言語モデル３４Ｃ、および認識結果ＤＢ３４Ｄを用いて、上記処理を実行すればよい。

なお、情報処理装置１０の更新部３０Ｄは、割込み処理（ステップＳ３）として、以下の処理を実行する。

詳細には、更新部３０Ｄは、所定条件を満たすと判断すると（ステップＳ３００）、言語モデル３４Ｃに含まれる出現確率を、基準出現確率に更新する(ステップＳ３０２、ステップＳ３０４)。そして、本ルーチンを終了する。

以上説明したように、本実施の形態の情報処理装置１０は、取得部３０Ａと、登録部３０Ｂと、を備える。取得部３０Ａは、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する１または複数の形態素を取得する。登録部３０Ｂは、形態素の音節を音素に変換し、発音辞書３４Ｂに登録する。

ここで、音声認識を行う場面では、場面特有の専門用語または造語が用いられる場合がある。しかし、従来技術では、辞書に未登録の用語や造語を音声認識することは困難であり、誤認識が発生する場合があった。

一方、本実施の形態の情報処理装置１０は、会議や講義などの予め定めた場面で用いられる原稿に基づいて、原稿のテキストデータに含まれる形態素を発音辞書３４Ｂへ登録する。

このため、情報処理装置１０は、音声認識を行う場面で、場面特有の専門用語や造語などが用いられる場合であっても、場面で用いられる原稿に含まれる単語などの形態素を、発音辞書３４Ｂへ事前に登録することができる。このため、本実施の形態の情報処理装置１０では、音声認識時に、該場面用に事前に更新された発音辞書３４Ｂを用いることで、誤認識が発生することを抑制することができる。

従って、本実施の形態の情報処理装置１０は、音声認識精度向上を図ることができる。

また、特定部３０Ｃは、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定する。更新部３０Ｄは、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデル３４Ｃに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新する。

更新部３０Ｄが、テキストデータ中の形態素の出現頻度に基づいて言語モデル３４Ｃを更新するため、音声認識精度の向上を更に図ることができる。

また、更新部３０Ｄは、出現頻度が基準頻度より大きいほど、言語モデル３４Ｃに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より高い値に更新する。また、更新部３０Ｄは、出現頻度が基準頻度より小さいほど、言語モデル３４Ｃに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より低い値に更新する。

このため、更新部３０Ｄは、原稿に含まれる出現頻度の高い形態素を含む単語列ほど、高い出現確率を言語モデル３４Ｃへ規定することができる。よって、更新部３０Ｄは、場面における音声認識精度の更なる向上を図ることができる。

また、更新部３０Ｄは、所定条件を満たした場合、言語モデル３４Ｃに含まれる出現確率を基準出現確率に更新する。このため、所定条件に例えば場面ごとや特定の期間ごとなどの条件を用いることで、場面や期間に適した音声認識を行うことができる。

また、受付部３０Ｆは、音声データを受付ける。分解部３０Ｇは、音声データを１または複数の音素に分解する、変換部３０Ｈは、１または複数の音素を、発音辞書３４Ｂおよび言語モデル３４Ｃを用いて解析し、音声データを文字列に変換する。

変換部３０Ｈは、原稿に含まれるテキストデータに基づいて登録された発音辞書３４Ｂおよび更新された言語モデル３４Ｃを用いて、音声認識を行うため、音声認識精度の向上を図ることができる。

受信部３０Ｅは、音声データおよび音声データの送信元の端末識別情報を受信する。判別部３０Ｉは、端末識別情報によって識別される端末装置１２の操作者Ｕを、音声データの発話者として判別する。このため、情報処理装置１０は、上記効果に加えて、音声データの発話者を容易に判別することができる。

また、本実施の形態の情報処理システム１は、情報処理装置１０と、情報処理装置１０と通信する端末装置１２と、を備える。情報処理装置１０が上記構成であるため、情報処理システム１は、音声認識精度向上を図ることができる。

なお、上記実施の形態では、情報処理装置１０側で、原稿に含まれるテキストデータの抽出、テキストデータからの形態素の抽出、およびテキストデータにおける形態素の出現頻度の特定、を実行する形態を一例として説明した。

しかし、原稿に含まれるテキストデータの抽出、テキストデータからの形態素の抽出、およびテキストデータにおける形態素の出現頻度の特定、の少なくとも１つの処理を、端末装置１２側で実行してもよい。この場合、端末装置１２側に、取得部３０Ａ、登録部３０Ｂ、および特定部３０Ｃの少なくとも１つを設けた構成とすればよい。例えば、端末装置１２の制御部２０に、取得部３０Ａ、登録部３０Ｂ、および特定部３０Ｃを更に備えた構成とする。この場合、端末装置１２は、取得した原稿に含まれるテキストデータと、テキストデータに含まれる１または複数の形態素と、１または複数の形態素の各々の出現頻度と、を情報処理装置１０へ送信すればよい。

（ハードウェア構成）
次に、上記実施の形態の情報処理装置１０および端末装置１２のハードウェア構成の一例を説明する。図９は、情報処理装置１０および端末装置１２のハードウェア構成図の一例を示す図である。

情報処理装置１０および端末装置１２は、ＣＰＵ８０などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８４、およびＨＤＤ（ハードディスクドライブ）８６などの記憶装置と、各種機器とのインターフェースであるＩ／Ｆ部８８と、各部を接続するバス９０とを備えており、通常のコンピュータを利用したハードウェア構成となっている。

情報処理装置１０および端末装置１２では、ＣＰＵ８０が、ＲＯＭ８２からプログラムをＲＡＭ８４上に読み出して実行することにより、上記各部がコンピュータ上で実現される。

なお、情報処理装置１０および端末装置１２で実行される上記各処理を実行するためのプログラムは、ＨＤＤ８６に記憶されていてもよい。また、情報処理装置１０および端末装置１４で実行される上記各処理を実行するためのプログラムは、ＲＯＭ８２に予め組み込まれて提供されていてもよい。

また、情報処理装置１０および端末装置１２で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、ＣＤ−Ｒ、メモリカード、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、フレキシブルディスク（ＦＤ）等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、情報処理装置１０および端末装置１２で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、情報処理装置１０および端末装置１２で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。

なお、上記には、本発明の実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…情報処理システム、１０…情報処理装置、１２…端末装置、３０Ａ…取得部、３０Ｂ…登録部、３０Ｃ…特定部、３０Ｄ…更新部、３０Ｅ…受信部、３０Ｆ…受付部、３０Ｇ…分解部、３０Ｈ…変換部、３０Ｉ…判別部

Claims

予め定めた場面で用いられる原稿に含まれるテキストデータを構成する１または複数の形態素を取得する取得部と、
前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、
前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定する特定部と、
複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、
を備える情報処理装置。
前記更新部は、
前記出現頻度が前記基準頻度より大きいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、基準出現確率より高い値に更新し、
前記出現頻度が前記基準頻度より小さいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、前記基準出現確率より低い値に更新する、
請求項１に記載の情報処理装置。
前記更新部は、
所定条件を満たした場合、前記言語モデルに含まれる前記出現確率を前記基準出現確率に更新する、
請求項２に記載の情報処理装置。
音声データを受付ける受付部と、
前記音声データを１または複数の音素に分解する分解部と、
１または複数の前記音素を、前記発音辞書および前記言語モデルを用いて解析し、前記音声データを文字列に変換する変換部と、
を備える請求項１に記載の情報処理装置。
前記音声データおよび前記音声データの送信元の端末識別情報を受信する受信部と、
前記端末識別情報によって識別される端末装置の操作者を、前記音声データの発話者として判別する判別部と、
を備える、請求項４に記載の情報処理装置。
情報処理装置と、前記情報処理装置と通信する端末装置と、を備えた情報処理システムであって、
前記情報処理装置は、
前記端末装置で生成された予め定めた場面で用いられる原稿に含まれる、テキストデータを構成する１または複数の形態素を取得する取得部と、
前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、
前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定する特定部と、
複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、
を備える、情報処理システム。
予め定めた場面で用いられる原稿に含まれるテキストデータを構成する１または複数の形態素を取得するステップと、
前記形態素の音節を音素に変換し、発音辞書に登録するステップと、
前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定するステップと、
複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新するステップと、
をコンピュータに実行させるための情報処理プログラム。