JP5175585B2

JP5175585B2 - 文書処理装置、電子カルテ装置および文書処理プログラム

Info

Publication number: JP5175585B2
Application number: JP2008066550A
Authority: JP
Inventors: 明中村
Original assignee: Panasonic Healthcare Co Ltd
Current assignee: PHC Corp
Priority date: 2008-03-14
Filing date: 2008-03-14
Publication date: 2013-04-03
Anticipated expiration: 2028-03-14
Also published as: JP2009223560A

Description

本発明は、予測入力や重要語抽出などの文書処理に用いられる文書処理装置、当該文書処理装置を備える電子カルテ装置、および文書処理プログラムに関する。

従来、少なくとも１つの単語からなる入力単語列に後続する単語を予測する予測入力や、入力単語列を構成する単語のうち重要な単語を抽出する重要語抽出などの文章処理に用いられる文書処理装置が普及している。このような文書処理装置では、単語と、当該単語の生起（出現）し易さを表す単語生起確率とを対応付けた単語生起確率テーブルを有する確率モデル（以下、言語モデル）が利用される。

なお、言語モデルは、所定のアルゴリズムに従って、学習文書データを基に生成される。また、単語生起確率として頻度が使用されることもある。そして、文書処理装置は、例えば予測入力の場合には単語生起確率が高い単語を表示し、重要語抽出の場合には単語生起確率から算出された重要度が高い単語を表示する。

さらに、入力単語列の話題を考慮した文書処理装置が提案されている（例えば、非特許文献１および２参照）。具体的には、当該文書処理装置は、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて単語生起確率を単語毎に算出する。

ここで、話題の混合比とは、例えば、入力単語列が０．１の割合で話題１に関連し、０．９の割合で話題２に関連するといった内容の情報である。この場合、話題１に対応する単語生起確率テーブル中の単語生起確率に０．１が乗算され、話題２に対応する単語生起確率テーブル中の単語生起確率に０．９が乗算される。このような方法により、入力単語列の話題を考慮しない場合と比較して、単語生起確率の算出精度を向上させることができる。
D.M.Blei他，"Latent Dirichlet Allocation", Journal of Machine Learning Research, 3,2003, p993-1022 T.Hofmann他，"Probabilistic Latent Semantic Indexing", Proceedings of SIGIR’99, 1999, p50-57

しかしながら、入力単語列の話題を考慮する従来の文書処理装置には、次のような問題がある。具体的には、単語生起確率の算出精度を向上させようとして言語モデルを複雑にすると、言語モデルが学習文書データに過適応（オーバーフィッティング）してしまう。つまり、言語モデルを複雑にするほど、学習文書データに対する単語生起確率の算出精度は向上するが、未知の入力単語列に対する単語生起確率の算出精度が低下する問題があった。

また、入力単語列の話題を考慮する従来の文書処理装置では、単語生起確率の算出精度が入力単語列に応じてばらつく問題もある。すなわち、単語生起確率の算出精度が高い場合と低い場合との差が激しく、単語生起確率の算出精度を安定させることが難しい。

そこで、本発明は、上述した課題を解決するためになされたものであり、入力単語列の話題を考慮して単語生起確率を算出する場合において、単語生起確率の算出精度を良好に保つことが可能な文書処理装置、電子カルテ装置および文書処理プログラムを提供することを目的とする。

上述した課題を解決するために、本発明は以下のような特徴を有している。まず、本発明の第１の特徴は、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも１つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列（入力単語列ｈ）中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出する文書処理装置（文書処理装置１００）であって、複数の話題に対応する複数の第１単語生起確率テーブル（単語生起確率テーブルＴ₁₁,Ｔ₁₂,…,Ｔ_1C）を有する第１言語モデルを用いて、前記入力単語列における話題の第１混合比（混合比Ｒ_１）を推定するとともに、前記第１混合比に応じて前記単語毎の第１単語生起確率（単語生起確率P_１(w|h)）を算出する第１単語生起確率算出部（単語生起確率算出部１０_１）と、複数の話題に対応する複数の第２単語生起確率テーブル（単語生起確率テーブルＴ_M1,Ｔ_M2,…,Ｔ_MC）を有する第２言語モデルを用いて、前記入力単語列における話題の第２混合比（混合比Ｒ_Ｍ）を推定するとともに、前記第２混合比に応じて前記単語毎の第２単語生起確率（単語生起確率P_Ｍ(w|h)）を算出する第２単語生起確率算出部（単語生起確率算出部１０_Ｍ）と、前記第１単語生起確率と前記第２単語生起確率との平均値または加算値を前記単語毎に算出する統合処理部（統合処理部２０）とを備え、前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを要旨とする。

このような文書処理装置によれば、第１単語生起確率テーブルおよび第２単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値である。つまり、第１単語生起確率算出部および第２単語生起確率算出部は、互いに異なる第１言語モデルおよび第２言語モデルを用いて単語生起確率を算出する。

そして、統合処理部は、異なる言語モデルを用いて算出された単語生起確率の平均値または加算値を算出するため、単語生起確率の算出精度のばらつきが平準化される。また、第１言語モデルおよび第２言語モデルのそれぞれを複雑にすることを要しないため、上述した過適応（オーバーフィッティング）が軽減される。

したがって、本発明の第１の特徴に係る文書処理装置によれば、入力単語列の話題を考慮して単語生起確率を算出する場合において、単語生起確率の算出精度を良好に保つことができる。

本発明の第２の特徴は、本発明の第１の特徴に係り、前記第１言語モデルと前記第２言語モデルとは、異なる学習文書データを用いて生成されることを要旨とする。

本発明の第３の特徴は、本発明の第１の特徴に係り、前記第１言語モデルおよび前記第２言語モデルは、任意の初期値を基に反復計算により準最適解に収束させるアルゴリズムを用いて、同一の学習文書データに基づいて生成され、前記第１言語モデルの生成に用いられる前記アルゴリズムの初期値と、前記第２言語モデルの生成に用いられる前記アルゴリズムの初期値とは、異なる値であることを要旨とする。

本発明の第４の特徴は、本発明の第１〜３のいずれかの特徴に係り、前記第１単語生起確率算出部は、前記第１言語モデルを用いて、前記入力単語列全体に対する第１単語列生起確率をさらに算出し、前記第２単語生起確率算出部は、前記第２言語モデルを用いて、前記入力単語列全体に対する第２単語列生起確率をさらに算出し、前記統合処理部は、前記第１単語列生起確率に応じて前記第１単語生起確率を重み付けし、前記第２単語列生起確率に応じて前記第２単語生起確率を重み付けすることを要旨とする。

本発明の第５の特徴は、本発明の第１〜４のいずれかの特徴に係り、話題に依存しない話題非依存言語モデル（話題非依存言語モデル部３１または話題非依存言語モデル部４１）を用いて前記単語毎の単語生起確率を算出する第３単語生起確率算出部（予測候補リスト出力部３２または単語生起確率算出部４２）と、前記統合処理部によって算出された前記平均値または前記加算値と、前記第３単語生起確率算出部によって算出された単語生起確率とに応じて所定の文書処理を実行する処理実行部（予測候補リスト並び替え部３３、または、重要度算出部４３および重要語抽出部４４）とをさらに備えることを要旨とする。

本発明の第６の特徴は、本発明の第５の特徴に係り、前記所定の文書処理は、前記入力単語列に後続する単語を予測する予測入力であり、前記処理実行部は、前記第３単語生起確率算出部によって算出された単語生起確率に応じて前記単語を順位付けしたリストを出力し、前記統合処理部によって算出された前記平均値または前記加算値に基づいて、前記リストにおける前記単語の順位を変更することを要旨とする。

本発明の第７の特徴は、本発明の第５または第６の特徴に係り、前記所定の文書処理は、前記入力単語列を構成する単語のうち重要な単語を抽出する重要語抽出であり、前記処理実行部は、前記統合処理部によって算出された前記平均値または前記加算値と、前記第３単語生起確率算出部によって算出された単語生起確率とに応じて、前記入力単語列中の前記単語毎の重要度を算出し、前記重要度に基づいて前記入力単語列から少なくとも１つの単語を抽出することを要旨とする。

本発明の第８の特徴は、本発明の第１〜７のいずれかの特徴に係る文書処理装置を備え、前記話題としてカルテに関連した話題を用いる電子カルテ装置（電子カルテ装置１００ａ）であることを要旨とする。

本発明の第９の特徴は、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも１つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出するコンピュータに、複数の話題に対応する複数の第１単語生起確率テーブルを有する第１言語モデルを用いて、前記入力単語列における話題の第１混合比を推定するとともに、前記第１混合比に応じて前記単語毎の第１単語生起確率を算出する手順と、複数の話題に対応する複数の第２単語生起確率テーブルを有する第２言語モデルを用いて、前記入力単語列における話題の第２混合比を推定するとともに、前記第２混合比に応じて前記単語毎の第２単語生起確率を算出する手順と、前記第１単語生起確率と前記第２単語生起確率との平均値または加算値を前記単語毎に算出する手順とを実行させ、前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを要旨とする。

本発明によれば、入力単語列の話題を考慮して単語生起確率を算出する場合において、単語生起確率の算出精度を良好に保つことが可能な文書処理装置、電子カルテ装置および文書処理プログラムを提供することができる。

次に、図面を参照して、本発明の実施形態に係る文章処理装置を説明する。以下の実施形態における図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。

［第１実施形態］
第１実施形態では、（１）文書処理装置の構成、（２）単語生起確率テーブルの構成、（３）言語モデルの生成処理、（４）話題混合比の推定処理、（５）文書処理装置の動作および（６）作用・効果について説明する。

（１）文書処理装置の構成
第１実施形態に係る文書処理装置の構成、具体的には、（１．１）文書処理装置の概略ハードウェア構成、（１．２）文書処理装置の機能ブロック構成について説明する。

（１．１）文書処理装置の概略ハードウェア構成
図１は、文書処理装置１００の概略ハードウェア構成図である。図１に示すように、文書処理装置１００は、入力部１１０、表示部１２０、処理部１３０および記憶部１４０を含むコンピュータである。

入力部１１０には、文書データが入力される。入力部１１０としては、例えばキーボード、マウスまたは文字読取装置等が使用できる。表示部１２０は、文書データを表示するディスプレイである。

処理部１３０は、ＣＰＵなどによって構成され、文書データを処理する。記憶部１４０は、メモリや補助記憶装置によって構成される。記憶部１４０は、処理部１３０によって実行されるプログラムを記憶するとともに、記憶部１４０におけるプログラム実行処理中に利用されるデータ等を一時的に記憶する。処理部１３０には、入力部１１０または記憶部１４０から文書データが入力される。

（１．２）文書処理装置の機能ブロック構成
図２は、文書処理装置１００の機能ブロック構成、具体的には処理部１３０によって実行される各機能の機能ブロック構成図である。

図２に示すように、文書処理装置１００は、Ｍ個（Ｍ≧２）の単語生起確率算出部１０₁,１０₂,…,１０_Mと、統合処理部２０とを含む。

単語生起確率算出部１０₁,１０₂,…,１０_Mは、入力単語列ｈにおける話題の混合比Ｒ_i=(r_ik)を推定するとともに(1≦i≦M, 1≦k≦C)、推定した混合比Ｒ_iに応じて、入力単語列ｈ中の単語毎または入力単語列ｈに後続する候補となる単語毎の単語生起確率P_i(w|h)を算出する(1≦i≦M)。ここで、記号P(A|B)は、Ｂの条件下でＡが生起する確率Ｐを表している。

入力単語列ｈは、Ｌ個（Ｌ≧１）の単語w₁,w₂,…,w_Lからなり、入力部１１０または記憶部１４０から入力される文書データである。ただし、入力部１１０または記憶部１４０から入力される文書データが単語単位に分割されていない場合には、図示を省略する分割部において単語単位への分割処理（形態素解析）が行われる。

単語生起確率算出部１０_１は、言語モデル部Q_１および算出部１２_１を含む。なお、以下では、言語モデル部を単に言語モデルまたはモデルと適宜称する。言語モデル部Q_１は、ＬＤＡ(Latent Dirichlet Allocation)、ＰＬＳＩ(Probabilistic Latent Semantic Indexing)、またはコーパスクラスタリング等の既存の言語モデルに従って構成される。

言語モデル部Q_１は、Ｃ個（Ｃ≧２）の話題に対応する単語生起確率テーブルＴ₁₁,Ｔ₁₂,…,Ｔ_1Cを含む。単語生起確率テーブルＴ₁₁,Ｔ₁₂,…,Ｔ_1Cは、記憶部１４０に予め記憶されており、複数の話題それぞれについて単語と単語の単語生起確率とを対応付けている。

言語モデル部Q_１は、単語生起確率テーブルＴ₁₁,Ｔ₁₂,…,Ｔ_1Cを用いて、入力単語列ｈにおける話題混合比Ｒ_１を推定する。話題混合比の推定処理の詳細については後述する。算出部１２_１は、言語モデル部Q_１によって推定された話題混合比Ｒ_１に応じて、単語毎の単語生起確率P_１(w|h)を算出する。

同様に、単語生起確率算出部１０_Ｍは、言語モデル部Q_Ｍおよび算出部１２_Ｍを含む。言語モデル部Q_Ｍは、既存の言語モデルに従って構成されており、Ｃ個（Ｃ≧２）の話題に対応する単語生起確率テーブルＴ_M1,Ｔ_M2,…,Ｔ_MCを含む。単語生起確率テーブルＴ_M1,Ｔ_M2,…,Ｔ_MCは、記憶部１４０に予め記憶されている。なお、言語モデル部Q_１に含まれる話題の数（単語生起確率テーブルの数）と、言語モデル部Q_Ｍに含まれる話題の数（単語生起確率テーブルの数）とは、異なっていてもよい。

言語モデル部Q_Ｍは、単語生起確率テーブルＴ_M1,Ｔ_M2,…,Ｔ_MCを用いて、入力単語列ｈにおける話題混合比Ｒ_Ｍを推定する。算出部１２_Ｍは、言語モデル部Q_Ｍによって推定された話題混合比Ｒ_Ｍに応じて、単語毎の単語生起確率P_Ｍ(w|h)を算出する。

統合処理部２０は、単語生起確率算出部１０₁,１０₂,…,１０_Mによって算出された単語生起確率P_ｉ(w|h)を単語毎に平均し、平均値を最終的な単語生起確率P(w|h)として出力する。統合処理部２０が出力する単語毎の単語生起確率P(w|hは、後述する予測入力や重要語抽出などに用いられる。

このように、文書処理装置１００においては、Ｃ個の話題に対応する単語生起確率テーブルを有するＭ個の言語モデルQ₁,Q₂,…,Q_Mが用いられる。言語モデル部Q₁,Q₂,…,Q_Mのそれぞれは、学習文書データに基づいて生成される。

具体的には、言語モデルQ₁,Q₂,…,Q_Mのそれぞれは、C個の潜在的な（=latent; 観測できない）話題Z=(z₁, z₂,…,z_C)が存在し、かつ、各学習文書D=(d₁, d₂,…,d_N)が各話題へ確率的に（非排他的に）所属するとの仮定の元で、話題毎の単語生起確率P(w_j | z_k)を推定する（1≦j≦V; V=語彙数, 1≦k≦C）ことにより生成される。言語モデルQ₁,Q₂,…,Q_Mの具体的な生成例については後述する。

（２）単語生起確率テーブルの構成
図３は、単語生起確率テーブルの構成例を示すテーブル構成図である。

図３（ａ）に示すように、単語生起確率テーブルＴ_１１は、特定の話題に対応しており、Ｖ個（Ｖ≧２）の単語と、当該単語の単語生起確率とを対応付けるテーブルである。単語生起確率テーブルＴ_１Ｃは、特定の話題に対応しており、Ｖ個（Ｖ≧２）の単語と、当該単語の単語生起確率とを対応付けるテーブルである。なお、単語生起確率テーブルＴ_１１に含まれる単語の数（語彙数）と、単語生起確率テーブルＴ_１Ｃに含まれる単語の数（語彙数）とは異なっていてもよい。

図３（ｂ）に示すように、単語生起確率テーブルＴ_Ｍ１は、特定の話題に対応しており、Ｖ個（Ｖ≧２）の単語と、当該単語の単語生起確率とを対応付けるテーブルである。単語生起確率テーブルＴ_ＭＣは、特定の話題に対応しており、Ｖ個（Ｖ≧２）の単語と、当該単語の単語生起確率とを対応付けるテーブルである。

ここで、単語生起確率テーブルＴ_１１〜Ｔ_１Ｃと、単語生起確率テーブルＴ_Ｍ１〜Ｔ_ＭＣとににおいて、同一の単語に対応する単語生起確率は、異なる値となっている。つまり、各言語モデルにおいて、同一の単語に対応する単語生起確率は異なる値である。

（３）言語モデルの生成処理
次に、言語モデルQ₁,Q₂,…,Q_Mを生成する具体的手法について説明する。

言語モデルを生成する具体的手法は、言語モデルの種別（ＬＤＡ、ＰＬＳＩ、またはコーパスクラスタリングなど）によって異なる。しかしながら、ＬＤＡ、ＰＬＳＩ、またはコーパスクラスタリングなどのいずれにおいても、適当な初期値から出発して反復計算により準最適解に収束させるアルゴリズム（最適化アルゴリズム）が用いられる。このため、最適化アルゴリズムに異なる初期値を与えることによって、同一の学習文書セット（学習文書データ）からＭ個の異なった学習結果を得ることができる。

あるいは、言語モデル毎に異なる学習文書セットを用いてＭ個の言語モデルを生成してもよい。例えば、Ｎ個の文書からなる学習文書セットD=(d₁, d₂,…,d_N)からN_B個(N_B≦N)の文書を復元抽出（＝重複を許して抽出）する作業をＭ回行うことにより、Ｎ_B個の文書からなる異なるサブセット{ D_B1, D_B2,…, D_BM}をM個生成する。これらを学習文書セットとして学習をＭ回行い、Ｍ個の言語モデルを得ることができる。

以下では、ＬＤＡ、ＰＬＳＩ、コーパスクラスタリングを例に、言語モデルの生成処理について説明する。

（３．１）ＬＤＡ
ＬＤＡでは、各話題z_k（1≦k≦C）の生起確率Θ=(θ₁,θ₂,…,θ_C)を、M次元のディリクレ分布Dir(Θ|α)に従う確率変数と見なし、パラメータα=(α₁,α₂,…,α_C)およびβ_kj= P(w_j| z_k)を以下のアルゴリズムにより学習する。

1. α_k, β_kjに適当な初期値を与える（1≦j≦V, 1≦k≦C）。

2. 以下のE-step, M-stepを収束するまで交互に繰り返す。

E-step: 各文書d_i毎に変分パラメータφ,γを算出する。

収束するまで以下の式（１）および式（２）を交互に繰り返す（変分ベイズ法）。

ここで、Ψ()は、digamma関数（対数Γ関数の一階微分）である。また、n(d_i,w_j)は文章d_iにおける語w_jの出現回数を表す。

M-step: 変分パラメータφ,γを用いてα_ｋ，β_ｋｊを更新する。

（３．２）ＰＬＳＩ
ＰＬＳＩでは、各学習文書d_iがC個の話題z_k（1≦k≦C）へ所属確率P(z_k|d_i)で確率的に所属すると考え、以下のアルゴリズムによりパラメータP(w_j|z_k), P(z_k|d_i)を学習する。

1. P(w_j|z_k), P(z_k|d_i)に適当な初期値を与える（1≦j≦V, 1≦i≦N, 1≦k≦C）。

2. 以下のE-step, M-stepを収束するまで交互に繰り返す。

E-step:

M-step:

（３．３）非排他的コーパスクラスタリング
非排他的コーパスクラスタリングでは、各学習文書d_iをd_i中に出現する各単語の出現回数を要素とするV次元のベクトル（文書ベクトル）として表現し、これらをC個の話題z_kにクラスタリングする。クラスタリング手法としては、一般的なk-means法の他、これを非排他的に拡張したファジィc-means法などを用いることができる。k-means法、ファジィc-means法はそれぞれ、適当な初期値から出発して以下の目的関数Jを最大化するように反復計算を行い収束解を得る。

k-means法：

ファジィc-means法：

k-means法では各文書がC個の潜在話題の内１個のみに排他的に所属する結果が得られる。一方、ファジィc-means法では各文書d_iが各話題z_kに確率u_ki=P(z_k |d_i)で非排他的に所属する結果が得られる。

得られたクラスタリング結果から、次式により話題毎の単語生起確率P(w|z_k)を得る。

（４）話題混合比の推定処理
次に、言語モデル部Q₁,Q₂,…,Q_Mによって実行される話題混合比の推定処理について説明する。

話題混合比の推定処理は、言語モデルの種別（ＬＤＡ、ＰＬＳＩ、またはコーパスクラスタリング）によって異なる。以下では、言語モデルの生成処理を、ＬＤＡ、ＰＬＳＩ、非排他的コーパスクラスタリングについて説明する。

（４．１）ＬＤＡ
ＬＤＡでは、入力単語列ｈを入力文書dと見なして、学習時のE-step部分を実行し変分パラメータφ,γを算出する。得られたγ_kを和が１になるよう正規化した値r_k=γ_k／Σγ_kを話題混合比とする。

（４．２）ＰＬＳＩ
ＰＬＳＩでは、入力単語列ｈを入力文書dと見なし、P(w_j|z_k)を固定して学習時と同様の計算を行いP(z_k|h)を求める。すなわち以下の式を収束するまで繰り返す。得られたP(z_k|h)が話題混合比r_kとなる。

（４．３）非排他的コーパスクラスタリング
非排他的コーパスクラスタリングでは、入力単語列ｈを入力文書dと見なして、学習時と同様にh中に出現する各単語の出現回数を要素とするＶ次元の文書ベクトルd_hを生成する。そして学習時に得られた各話題（クラスタ）の重心v_kとの類似度を求め、これを文脈hの元での話題混合比r_kとする。d_hとv_kとの類似度としては、一般的なベクトル間のコサイン類似度d_h・v_k／|d_h||v_k|を用いることができる。

（５）文書処理装置の動作
図４は、文書処理装置１００の動作を示すフローチャートである。

ステップＳ１０１において、言語モデル部Q₁,Q₂,…,Q_Mは、話題混合比Ｒ_i(r_i1, r_i2,…,r_iC)を推定する。具体的には、ＬＤＡでは変分ベイス法、ＰＬＳＩではEMアルゴリズムによる反復計算で話題混合比Ｒ_iを求める。コーパスクラスタリングでは入力単語列ｈと各話題とのコサイン類似度等により話題混合比Ｒ_iを求める。

ステップＳ１０２において、算出部１２₁,１２₂,…,１２_Mは、言語モデル部Q₁,Q₂,…,Q_Mが推定した話題混合比r_ik(1≦i≦M, 1≦k≦C)から、入力単語列ｈの元での各言語モデルQ_iによる単語生起確率P_i(w|h)を求める。単語生起確率P_i(w|h)は、単語生起確率算出部１０₁,１０₂,…,１０_Mのそれぞれで異なる値になる。

ここで、ｚ_ｉｋは、言語モデルQ_ｉにおけるｋ番目の話題である。

ステップＳ１０３において、統合処理部２０は、各言語モデルについて求められたP_i(w|h)を平均し、最終的な単語生起確率P(w|h)とする。

（６）作用・効果
文書処理装置１００によれば、各言語モデルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値である。すなわち、互いに異なる言語モデルを用いて単語生起確率P_i(w|h)が算出される。

そして、統合処理部２０は、異なる言語モデルを用いて算出された単語生起確率P_i(w|h)の平均値を平均するため、単語生起確率P_i(w|h)の算出精度のばらつきが平準化される。また、言語モデル部Q₁,Q₂,…,Q_Mのそれぞれを複雑にすることを要しないため、上述した過適応（オーバーフィッティング）も軽減される。

したがって、文書処理装置１００によれば、入力単語列ｈの話題を考慮して単語生起確率を算出する場合でも、単語生起確率の算出精度を良好に保つことができる。

ここで、ある文書集合(新聞記事半年分)を学習文書データとしてＬＤＡ言語モデルを構築し、当該学習文書データとは異なる文書集合を評価文書データとして、文書処理装置１００の評価を行った結果の例を図５に示す。

図５において、横軸は、システム全体のモデル規模、すなわち各言語モデルの話題数C×モデル数Mを表している。縦軸は、テストセットパープレキシティ(TPP)を表している。TPPは、言語モデルの性能を評価する際に一般的に用いられる指標であり、言語モデルで評価文書データ中の各単語を予測する際の平均分岐数を表す。TPPが大きいほど単語候補を絞り込むのが難しく、小さいほど候補を絞り込めることを意味する。なお、評価文書D=(w₁w₂...w_ND)に対するモデルM_ＬのTPPは次式で与えられる．

H(D|M_L)はDに対する1単語あたりのエントロピーであり、

である。P_ML()はモデルM_Ｌによって求めた生起確率を表す。

図５に示すように、単一の言語モデル（従来手法）ではモデル規模（話題数）を大きくしていくとある時点から精度が悪化するのに対し、本実施形態の方法では、システム全体のモデル規模（各モデルの話題数×モデル数）を大きくしても性能が低下しない。したがって、従来手法では到達不可能な推定精度を実現でき、また同程度のモデル規模で従来よりも高い精度が得られる。

また、第１実施形態では、言語モデルQ₁,Q₂,…,Q_Mのそれぞれは、異なる学習文書データを用いて生成される。このため、個々の言語モデルによる話題混合比の推定結果の幅が広がり、未知の入力単語列ｈに対する単語生起確率の算出精度をさらに改善できる。

あるいは、言語モデルQ₁,Q₂,…,Q_Mのそれぞれは、任意の初期値を基に反復計算により準最適解に収束させるアルゴリズムを用いて、同一の学習文書データに基づいて生成され、各言語モデルQ₁,Q₂,…,Q_Mの生成に用いられるアルゴリズムの初期値を異なる値としてもよい。この場合、異なる学習文書データを用いて言語モデル部Q₁,Q₂,…,Q_Mを生成する場合よりも容易に言語モデルを構築することができる。

［第１実施形態の変形例］
上述した第１実施形態では、統合処理部２０は、各モデルについて求めた単語生起確率P_i(w|h)から最終的な単語生起確率P(w|h)を算出する際、単語生起確率P_i(w|h)を単に平均していた。

しかしながら、統合処理部２０は、各言語モデルQ₁,Q₂,…,Q_Mにおける入力単語列ｈの生起確率P(h|Qi)を用いて次式のように重み付け平均してもよい。

各言語モデルQ₁,Q₂,…,Q_Mにおける入力単語列ｈの生起確率P(h|Qi)は、推定した話題混合比r_ik(1≦k≦C)を用いて以下のように求めることができる。

このような重み付けにより、単語生起確率P_i(w|h)を平均する際に、精度が高いとみなされる単語生起確率P_i(w|h)の重みを大きくすることができ、最終的な単語生起確率P(w|h)をさらに精度良く算出することができる。

［第２実施形態］
第２実施形態では、予測入力に用いられる文書処理装置１００について説明する。具体的には、（１）文書処理装置の機能ブロック構成、（２）リスト並び替え処理、（３）文書処理装置の動作、（４）作用・効果について説明する。第２実施形態において、第１実施形態と重複する説明は省略する。

（１）文書処理装置の機能ブロック構成
図６は、第２実施形態に係る文書処理装置１００の機能ブロック構成図である。

第２実施形態に係る文書処理装置１００は、話題非依存言語モデル部３１、予測候補リスト出力部３２および予測候補リスト並び替え部３３を備える点で第１実施形態とは異なる。話題非依存言語モデル部３１は、話題に依存しない既存の言語モデルに従って構成される。すなわち、話題非依存言語モデル部３１は、話題非依存の単語生起確率テーブル（不図示）を有する。

予測候補リスト出力部３２は、話題非依存言語モデル部３１を用いて、入力単語列h=(w₁,w₂,…,w_L)に後続する単語を予測し、候補単語(c₁,c₂,…,c_K)とその生起確率(P(c₁),P(c₂),…,P(c_K))からなる話題非依存の予測候補リストＣ１を出力する。予測候補リスト並び替え部３３は、予測候補リストＣ１の候補単語の順位を並び替えて出力する。

（２）リスト並び替え処理
予測候補リスト並び替え部３３は、以下のパターン１または２のいずれかを用いて、予測候補リストＣ１の候補単語の順位を並び替える。

（２．１）パターン１
単語生起確率算出部１０₁,１０₂,…,１０_Mは、予測候補リストＣ１に含まれる各単語(c₁,c₂,…,c_K)に対して、各言語モデルQ₁, Q₂,…,Q_Mを用いて入力単語列hから話題混合比Ｒ_iを推定し、推定した話題混合比Ｒ_iから入力単語列hの元での各言語モデルQiによる単語生起確率P_i(c_k |h)を求める(1≦i≦M, 1≦k≦K)。さらにP_i(c_k |h)を平均しP(c_k |h)を得る。

予測候補リスト並び替え部３３は、P(c_k |h)に基づいてＣ１中の単語の順位を更新し、話題を考慮した予測候補リストＣ２として出力する。

（２．２）パターン２
パターン２は、話題非依存言語モデルとしてN-グラムモデル(N≧2)を用いる場合（通常、N=2 or 3）に適用される。この場合、予測候補リストＣ１は、直前の(N-1)単語列(w_Ｌ-N+2…w_L)に後続する候補単語(c₁,c₂,…,c_K)とそのN-グラム確率P(c_k | w_Ｌ-N+2…w_L)からなる。(1≦k≦K) この場合、予測候補リスト並び替え部３３は、次式により話題を考慮したN-グラム確率を求めて候補を並べ替え、候補リストＣ２を出力する。

（３）文書処理装置の動作
図７は、第２実施形態に係る文書処理装置１００の動作を示すフローチャートである。

ステップＳ２０１において、予測候補リスト出力部３２は、話題非依存言語モデル部３１を用いて、予測候補リストＣ１を生成する。

ステップＳ２０２において、単語生起確率算出部１０₁,１０₂,…,１０_Mは、予測候補リストＣ１に含まれる各単語(c₁,c₂,…,c_K)に対して、各言語モデルQ₁, Q₂,…,Q_Mを用いて入力単語列hから話題混合比Ｒ_iを推定する。

ステップＳ２０３において、単語生起確率算出部１０₁,１０₂,…,１０_Mは、ステップＳ２０２で推定した話題混合比Ｒ_iから、入力単語列hの元での各言語モデルQiによる単語生起確率P_i(c_k |h)を求める。

ステップＳ２０４において、予測候補リスト並び替え部３３は、ステップＳ２０３で得られた単語生起確率P_i(c_k |h)に応じて、予測候補リストＣ１中の単語の順位を更新し、話題を考慮した予測候補リストＣ２として出力する。予測候補リストＣ２は、表示部１２０によって表示される。

（４）作用・効果
第２実施形態によれば、従来よりも予測入力における予測精度が向上し、入力効率を改善できる。また、話題非依存言語モデルを併用することによって、単語生起確率算出部１０₁,１０₂,…,１０_Mの処理負荷および処理時間を低減することができる。

［第３実施形態］
第３実施形態では、重要語抽出に用いられる文書処理装置１００について説明する。具体的には、（１）文書処理装置の機能ブロック構成、（２）文書処理装置の動作、（３）作用・効果について説明する。第３実施形態において、第１実施形態と重複する説明は省略する。

（１）文書処理装置の機能ブロック構成
図８は、第３実施形態に係る文書処理装置１００の機能ブロック構成図である。

第３実施形態に係る文書処理装置１００は、話題非依存言語モデル部４１、単語生起確率算出部４２、重要度算出部４３および重要語抽出部４４を備える点で第１実施形態とは異なる。

話題非依存言語モデル部４１は、話題に依存しない既存の話題非依存言語モデルに従って構成される。すなわち、話題非依存言語モデル部４１は、話題非依存の単語生起確率テーブル（不図示）を有する。

単語生起確率算出部４２は、重要語抽出処理の対象範囲全体を入力単語列h=(w₁,w₂,…,w_L)とし、話題非依存言語モデルに基づき入力単語列h中の各単語の生起確率P(w_j)を得る。この処理に先立ち、入力を単語単位に分割するいわゆる形態素解析処理を行う必要がある。

単語生起確率算出部１０₁,１０₂,…,１０_Mは、入力単語列h=(w₁,w₂,…,w_L)中の各単語に対し、各言語モデルQ₁, Q₂,…,Q_Mにより話題混合比Ｒ_iを推定し、入力単語列hの元での各言語モデルQiによる単語生起確率P_i(w_ｊ |h)を求める(1≦i≦M, 1≦j≦L)。さらにP_i(w_j |h)を平均することにより、話題を考慮した単語生起確率P(w_j |h)を得る。

重要度算出部４３は、話題非依存の生起確率P(w_j)と、話題を考慮した単語生起確率P(w_j |h)とから、各単語の重要度Im(w_j)を次式により算出する。

Im(w_j) = P(w_j |h) / P(w_j) (17)
または
Im(w_j) = n(h, w_j) × P(w_j |h) / P(w_j) (18)
ここで、n(h, w_j)はhにおけるw_jの出現回数である。

重要語抽出部４４は、入力単語列hの中で、重要度が所定のしきい値以上の単語を重要語として抽出する。抽出率が所定の割合になるように都度、しきい値を決めてもよい。重要語抽出部４４が抽出した重要語は、表示部１２０によって重要箇所として表示・出力される。

（２）文書処理装置の動作
図９は、第３実施形態に係る文書処理装置１００の動作を示すフローチャートである。

ステップＳ３０１において、単語生起確率算出部４２は、話題非依存言語モデルに基づき、入力単語列h中の各単語の生起確率P(w_j)を得る。

ステップＳ３０２において、単語生起確率算出部１０₁,１０₂,…,１０_Mは、話題を考慮した単語生起確率P(w_j |h)を得る。

ステップＳ３０３において、重要度算出部４３は、話題非依存の生起確率P(w_j)と、話題を考慮した単語生起確率P(w_j |h)とから、各単語の重要度Im(w_j)を算出する。

ステップＳ３０４において、重要語抽出部４４は、入力単語列hの中で、重要度が所定のしきい値以上の単語を重要語として抽出する。重要語抽出部４４が抽出した重要語は、表示部１２０によって重要箇所として表示・出力される。

（３）作用・効果
第３実施形態によれば、精度よく重要語を抽出できるため、要約作成などの効率を向上できる。

［第４実施形態］
第４実施形態では、第２実施形態に係る文書処理装置１００を、病院等の医療機関において用いられる電子カルテ装置に適用した形態について説明する。

図１０は、第４実施形態に係る電子カルテ装置１００ａの概略構成図である。

図１０に示すように、電子カルテ装置１００ａは、処理部１３０および記憶部１４０が配置されるコンピュータ本体１６０と、入力部１１０と、表示部１２０とを含む。ここで、記憶部１４０には、オペレーティングシステムや、コンピュータを電子カルテ装置として動作させるためのアプリケーションソフトウェア、カルテ文書などが記憶されている。アプリケーションソフトウェアには、入力単語列から話題に基づいて予測入力を行うプログラムが含まれている。表示部１２０は、カルテ文書を表示する。

病院等の医療機関において電子カルテ等が導入されてきたため、医者や看護士による文書作成の機会が増加してきている。第４実施形態によれば、キーボード操作に熟練していない人でも、少ないキータッチで情報を正確に入力でき、文書入力に関わる負担を軽減することができる。

なお、文書処理装置１００を電子カルテ装置１００ａに適用した場合には、学習文書データとしてカルテ文書が使用される。また、話題としては、例えば、心疾患、消化器疾患、呼吸器疾患等の疾患群の種別が使用される。なお、電子カルテ装置１００ａに対する予測入力の具体的な適用例については、特開２００７−３４８７１号公報を参照されたい。

［その他の実施形態］
上記のように、本発明は実施形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなる。

上述した実施形態では、統合処理部２０は、単語生起確率P_ｉ(w|h)を平均して平均値を最終的な単語生起確率P(w|h)としていたが、平均値に代えて加算値を用いてもよい。

また、単語生起確率算出部１０₁は、単語毎の単語生起確率P₁(w|h)を出力していたが、単語生起確率テーブルＴ₁₁,Ｔ₁₂,…,Ｔ_1C中の全単語について単語生起確率P₁(w|h)を算出せずに、一部の単語（例えば、上位のみ）について単語生起確率P₁(w|h)を出力してもよい。

第４実施形態では、第２実施形態に係る文書処理装置１００を電子カルテ装置に適用した形態について説明したが、第３実施形態に係る文書処理装置１００を電子カルテ装置に適用可能であることは勿論である。

このように本発明は、ここでは記載していない様々な実施形態等を包含するということを理解すべきである。したがって、本発明はこの開示から妥当な特許請求の範囲の発明特定事項によってのみ限定されるものである。

本発明の第１実施形態に係る文書処理装置の概略ハードウェア構成図である。本発明の第１実施形態に係る文書処理装置の機能ブロック構成図である。本発明の第１実施形態に係る単語生起確率テーブルの構成例を示すテーブル構成図である。本発明の第１実施形態に係る文書処理装置の動作を示すフローチャートである。本発明の第１実施形態に係る文書処理装置による効果を説明するための図である。本発明の第２実施形態に係る文書処理装置の機能ブロック構成図である。本発明の第２実施形態に係る文書処理装置の動作を示すフローチャートである。本発明の第３実施形態に係る文書処理装置の機能ブロック構成図である。本発明の第３実施形態に係る文書処理装置の動作を示すフローチャートである。本発明の第４実施形態に係る電子カルテ装置の概略構成図である。

符号の説明

１０₁,１０₂,…,１０_M…単語生起確率算出部、１２₁,１２₂,…,１２_M…算出部、２０…統合処理部、３１…話題非依存言語モデル部、３２…予測候補リスト出力部、３３…予測候補リスト並び替え部、４１…話題非依存言語モデル部、４２…単語生起確率算出部、４３…重要度算出部、４４…重要語抽出部、１００…文書処理装置、１００ａ…電子カルテ装置、１０１…単語生起確率算出部、１１０…入力部、１２０…表示部、１３０…処理部、１４０…記憶部、１６０…コンピュータ本体

Claims

ＬＤＡ、ＰＬＳＩ、またはコーパスクラスタリングのいずれかにより生成され、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも１つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出する文書処理装置であって、
複数の話題に対応する複数の第１単語生起確率テーブルを有する第１言語モデルを用いて、前記入力単語列における話題の第１混合比を推定するとともに、前記第１混合比に応じて前記単語毎の第１単語生起確率を算出する第１単語生起確率算出部と、
複数の話題に対応する複数の第２単語生起確率テーブルを有する第２言語モデルを用いて、前記入力単語列における話題の第２混合比を推定するとともに、前記第２混合比に応じて前記単語毎の第２単語生起確率を算出する第２単語生起確率算出部と、
前記第１単語生起確率と前記第２単語生起確率との平均値または加算値を前記単語毎に算出する統合処理部とを備え、
前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、
前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを特徴とする文書処理装置。
前記第１言語モデルと前記第２言語モデルとは、異なる学習文書データを用いて生成されることを特徴とする請求項１に記載の文書処理装置。
前記第１言語モデルおよび前記第２言語モデルは、任意の初期値を基に反復計算により準最適解に収束させるアルゴリズムを用いて、同一の学習文書データに基づいて生成され、
前記第１言語モデルの生成に用いられる前記アルゴリズムの初期値と、前記第２言語モデルの生成に用いられる前記アルゴリズムの初期値とは、異なる値であることを特徴とする請求項１に記載の文書処理装置。
前記第１単語生起確率算出部は、前記第１言語モデルを用いて、前記入力単語列全体に対する第１単語列生起確率をさらに算出し、
前記第２単語生起確率算出部は、前記第２言語モデルを用いて、前記入力単語列全体に対する第２単語列生起確率をさらに算出し、
前記統合処理部は、前記第１単語列生起確率に応じて前記第１単語生起確率を重み付けし、前記第２単語列生起確率に応じて前記第２単語生起確率を重み付けすることを特徴とする請求項１〜３のいずれか１項に記載の文書処理装置。
話題に依存しない話題非依存言語モデルを用いて前記単語毎の単語生起確率を算出する第３単語生起確率算出部と、
前記統合処理部によって算出された前記平均値または前記加算値と、前記第３単語生起確率算出部によって算出された単語生起確率とに応じて所定の文書処理を実行する処理実行部とをさらに備えることを特徴とする請求項１〜４のいずれか１項に記載の文書処理装置。
前記所定の文書処理は、前記入力単語列に後続する単語を予測する予測入力であり、
前記処理実行部は、
前記第３単語生起確率算出部によって算出された前記単語毎の単語生起確率に応じて前記単語を順位付けしたリストを生成し、
前記統合処理部によって算出された前記平均値または前記加算値に基づいて、前記リストにおける前記単語の順位を変更することを特徴とする請求項５に記載の文書処理装置。
前記所定の文書処理は、前記入力単語列を構成する単語のうち重要な単語を抽出する重要語抽出であり、
前記処理実行部は、
前記統合処理部によって算出された前記平均値または前記加算値と、前記第３単語生起確率算出部によって算出された単語生起確率とに応じて、前記入力単語列中の前記単語毎の重要度を算出し、
前記重要度に基づいて前記入力単語列から少なくとも１つの単語を抽出することを特徴とする請求項５に記載の文書処理装置。
請求項１〜７のいずれかに記載の文書処理装置を備え、
前記話題としてカルテに関連した話題を用いることを特徴とする電子カルテ装置。
ＬＤＡ、ＰＬＳＩ、またはコーパスクラスタリングのいずれかにより生成され、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも１つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出するコンピュータに、
複数の話題に対応する複数の第１単語生起確率テーブルを有する第１言語モデルを用いて、前記入力単語列における話題の第１混合比を推定するとともに、前記第１混合比に応じて前記単語毎の第１単語生起確率を算出する手順と、
複数の話題に対応する複数の第２単語生起確率テーブルを有する第２言語モデルを用いて、前記入力単語列における話題の第２混合比を推定するとともに、前記第２混合比に応じて前記単語毎の第２単語生起確率を算出する手順と、
前記第１単語生起確率と前記第２単語生起確率との平均値または加算値を前記単語毎に算出する手順とを実行させ、
前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、
前記第１単語生起確率テーブルおよび前記第２単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを特徴とする文書処理プログラム。