JP5175585B2 - 文書処理装置、電子カルテ装置および文書処理プログラム - Google Patents

文書処理装置、電子カルテ装置および文書処理プログラム Download PDF

Info

Publication number
JP5175585B2
JP5175585B2 JP2008066550A JP2008066550A JP5175585B2 JP 5175585 B2 JP5175585 B2 JP 5175585B2 JP 2008066550 A JP2008066550 A JP 2008066550A JP 2008066550 A JP2008066550 A JP 2008066550A JP 5175585 B2 JP5175585 B2 JP 5175585B2
Authority
JP
Japan
Prior art keywords
word
occurrence probability
language model
input
word occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008066550A
Other languages
English (en)
Other versions
JP2009223560A (ja
Inventor
明 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PHC Corp
Original Assignee
Panasonic Healthcare Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Healthcare Co Ltd filed Critical Panasonic Healthcare Co Ltd
Priority to JP2008066550A priority Critical patent/JP5175585B2/ja
Publication of JP2009223560A publication Critical patent/JP2009223560A/ja
Application granted granted Critical
Publication of JP5175585B2 publication Critical patent/JP5175585B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、予測入力や重要語抽出などの文書処理に用いられる文書処理装置、当該文書処理装置を備える電子カルテ装置、および文書処理プログラムに関する。
従来、少なくとも1つの単語からなる入力単語列に後続する単語を予測する予測入力や、入力単語列を構成する単語のうち重要な単語を抽出する重要語抽出などの文章処理に用いられる文書処理装置が普及している。このような文書処理装置では、単語と、当該単語の生起(出現)し易さを表す単語生起確率とを対応付けた単語生起確率テーブルを有する確率モデル(以下、言語モデル)が利用される。
なお、言語モデルは、所定のアルゴリズムに従って、学習文書データを基に生成される。また、単語生起確率として頻度が使用されることもある。そして、文書処理装置は、例えば予測入力の場合には単語生起確率が高い単語を表示し、重要語抽出の場合には単語生起確率から算出された重要度が高い単語を表示する。
さらに、入力単語列の話題を考慮した文書処理装置が提案されている(例えば、非特許文献1および2参照)。具体的には、当該文書処理装置は、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて単語生起確率を単語毎に算出する。
ここで、話題の混合比とは、例えば、入力単語列が0.1の割合で話題1に関連し、0.9の割合で話題2に関連するといった内容の情報である。この場合、話題1に対応する単語生起確率テーブル中の単語生起確率に0.1が乗算され、話題2に対応する単語生起確率テーブル中の単語生起確率に0.9が乗算される。このような方法により、入力単語列の話題を考慮しない場合と比較して、単語生起確率の算出精度を向上させることができる。
D.M.Blei他,"Latent Dirichlet Allocation", Journal of Machine Learning Research, 3,2003, p993-1022 T.Hofmann他,"Probabilistic Latent Semantic Indexing", Proceedings of SIGIR’99, 1999, p50-57
しかしながら、入力単語列の話題を考慮する従来の文書処理装置には、次のような問題がある。具体的には、単語生起確率の算出精度を向上させようとして言語モデルを複雑にすると、言語モデルが学習文書データに過適応(オーバーフィッティング)してしまう。つまり、言語モデルを複雑にするほど、学習文書データに対する単語生起確率の算出精度は向上するが、未知の入力単語列に対する単語生起確率の算出精度が低下する問題があった。
また、入力単語列の話題を考慮する従来の文書処理装置では、単語生起確率の算出精度が入力単語列に応じてばらつく問題もある。すなわち、単語生起確率の算出精度が高い場合と低い場合との差が激しく、単語生起確率の算出精度を安定させることが難しい。
そこで、本発明は、上述した課題を解決するためになされたものであり、入力単語列の話題を考慮して単語生起確率を算出する場合において、単語生起確率の算出精度を良好に保つことが可能な文書処理装置、電子カルテ装置および文書処理プログラムを提供することを目的とする。
上述した課題を解決するために、本発明は以下のような特徴を有している。まず、本発明の第1の特徴は、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも1つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列(入力単語列h)中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出する文書処理装置(文書処理装置100)であって、複数の話題に対応する複数の第1単語生起確率テーブル(単語生起確率テーブルT11,T12,…,T1C)を有する第1言語モデルを用いて、前記入力単語列における話題の第1混合比(混合比R)を推定するとともに、前記第1混合比に応じて前記単語毎の第1単語生起確率(単語生起確率P(w|h))を算出する第1単語生起確率算出部(単語生起確率算出部10)と、複数の話題に対応する複数の第2単語生起確率テーブル(単語生起確率テーブルTM1,TM2,…,TMC)を有する第2言語モデルを用いて、前記入力単語列における話題の第2混合比(混合比R)を推定するとともに、前記第2混合比に応じて前記単語毎の第2単語生起確率(単語生起確率P(w|h))を算出する第2単語生起確率算出部(単語生起確率算出部10)と、前記第1単語生起確率と前記第2単語生起確率との平均値または加算値を前記単語毎に算出する統合処理部(統合処理部20)とを備え、前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを要旨とする。
このような文書処理装置によれば、第1単語生起確率テーブルおよび第2単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値である。つまり、第1単語生起確率算出部および第2単語生起確率算出部は、互いに異なる第1言語モデルおよび第2言語モデルを用いて単語生起確率を算出する。
そして、統合処理部は、異なる言語モデルを用いて算出された単語生起確率の平均値または加算値を算出するため、単語生起確率の算出精度のばらつきが平準化される。また、第1言語モデルおよび第2言語モデルのそれぞれを複雑にすることを要しないため、上述した過適応(オーバーフィッティング)が軽減される。
したがって、本発明の第1の特徴に係る文書処理装置によれば、入力単語列の話題を考慮して単語生起確率を算出する場合において、単語生起確率の算出精度を良好に保つことができる。
本発明の第2の特徴は、本発明の第1の特徴に係り、前記第1言語モデルと前記第2言語モデルとは、異なる学習文書データを用いて生成されることを要旨とする。
本発明の第3の特徴は、本発明の第1の特徴に係り、前記第1言語モデルおよび前記第2言語モデルは、任意の初期値を基に反復計算により準最適解に収束させるアルゴリズムを用いて、同一の学習文書データに基づいて生成され、前記第1言語モデルの生成に用いられる前記アルゴリズムの初期値と、前記第2言語モデルの生成に用いられる前記アルゴリズムの初期値とは、異なる値であることを要旨とする。
本発明の第4の特徴は、本発明の第1〜3のいずれかの特徴に係り、前記第1単語生起確率算出部は、前記第1言語モデルを用いて、前記入力単語列全体に対する第1単語列生起確率をさらに算出し、前記第2単語生起確率算出部は、前記第2言語モデルを用いて、前記入力単語列全体に対する第2単語列生起確率をさらに算出し、前記統合処理部は、前記第1単語列生起確率に応じて前記第1単語生起確率を重み付けし、前記第2単語列生起確率に応じて前記第2単語生起確率を重み付けすることを要旨とする。
本発明の第5の特徴は、本発明の第1〜4のいずれかの特徴に係り、話題に依存しない話題非依存言語モデル(話題非依存言語モデル部31または話題非依存言語モデル部41)を用いて前記単語毎の単語生起確率を算出する第3単語生起確率算出部(予測候補リスト出力部32または単語生起確率算出部42)と、前記統合処理部によって算出された前記平均値または前記加算値と、前記第3単語生起確率算出部によって算出された単語生起確率とに応じて所定の文書処理を実行する処理実行部(予測候補リスト並び替え部33、または、重要度算出部43および重要語抽出部44)とをさらに備えることを要旨とする。
本発明の第6の特徴は、本発明の第5の特徴に係り、前記所定の文書処理は、前記入力単語列に後続する単語を予測する予測入力であり、前記処理実行部は、前記第3単語生起確率算出部によって算出された単語生起確率に応じて前記単語を順位付けしたリストを出力し、前記統合処理部によって算出された前記平均値または前記加算値に基づいて、前記リストにおける前記単語の順位を変更することを要旨とする。
本発明の第7の特徴は、本発明の第5または第6の特徴に係り、前記所定の文書処理は、前記入力単語列を構成する単語のうち重要な単語を抽出する重要語抽出であり、前記処理実行部は、前記統合処理部によって算出された前記平均値または前記加算値と、前記第3単語生起確率算出部によって算出された単語生起確率とに応じて、前記入力単語列中の前記単語毎の重要度を算出し、前記重要度に基づいて前記入力単語列から少なくとも1つの単語を抽出することを要旨とする。
本発明の第8の特徴は、本発明の第1〜7のいずれかの特徴に係る文書処理装置を備え、前記話題としてカルテに関連した話題を用いる電子カルテ装置(電子カルテ装置100a)であることを要旨とする。
本発明の第9の特徴は、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも1つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出するコンピュータに、複数の話題に対応する複数の第1単語生起確率テーブルを有する第1言語モデルを用いて、前記入力単語列における話題の第1混合比を推定するとともに、前記第1混合比に応じて前記単語毎の第1単語生起確率を算出する手順と、複数の話題に対応する複数の第2単語生起確率テーブルを有する第2言語モデルを用いて、前記入力単語列における話題の第2混合比を推定するとともに、前記第2混合比に応じて前記単語毎の第2単語生起確率を算出する手順と、前記第1単語生起確率と前記第2単語生起確率との平均値または加算値を前記単語毎に算出する手順とを実行させ、前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを要旨とする。
本発明によれば、入力単語列の話題を考慮して単語生起確率を算出する場合において、単語生起確率の算出精度を良好に保つことが可能な文書処理装置、電子カルテ装置および文書処理プログラムを提供することができる。
次に、図面を参照して、本発明の実施形態に係る文章処理装置を説明する。以下の実施形態における図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。
[第1実施形態]
第1実施形態では、(1)文書処理装置の構成、(2)単語生起確率テーブルの構成、(3)言語モデルの生成処理、(4)話題混合比の推定処理、(5)文書処理装置の動作および(6)作用・効果について説明する。
(1)文書処理装置の構成
第1実施形態に係る文書処理装置の構成、具体的には、(1.1)文書処理装置の概略ハードウェア構成、(1.2)文書処理装置の機能ブロック構成について説明する。
(1.1)文書処理装置の概略ハードウェア構成
図1は、文書処理装置100の概略ハードウェア構成図である。図1に示すように、文書処理装置100は、入力部110、表示部120、処理部130および記憶部140を含むコンピュータである。
入力部110には、文書データが入力される。入力部110としては、例えばキーボード、マウスまたは文字読取装置等が使用できる。表示部120は、文書データを表示するディスプレイである。
処理部130は、CPUなどによって構成され、文書データを処理する。記憶部140は、メモリや補助記憶装置によって構成される。記憶部140は、処理部130によって実行されるプログラムを記憶するとともに、記憶部140におけるプログラム実行処理中に利用されるデータ等を一時的に記憶する。処理部130には、入力部110または記憶部140から文書データが入力される。
(1.2)文書処理装置の機能ブロック構成
図2は、文書処理装置100の機能ブロック構成、具体的には処理部130によって実行される各機能の機能ブロック構成図である。
図2に示すように、文書処理装置100は、M個(M≧2)の単語生起確率算出部101,102,…,10Mと、統合処理部20とを含む。
単語生起確率算出部101,102,…,10Mは、入力単語列hにおける話題の混合比Ri=(rik)を推定するとともに(1≦i≦M, 1≦k≦C)、推定した混合比Riに応じて、入力単語列h中の単語毎または入力単語列hに後続する候補となる単語毎の単語生起確率Pi(w|h)を算出する(1≦i≦M)。ここで、記号P(A|B)は、Bの条件下でAが生起する確率Pを表している。
入力単語列hは、L個(L≧1)の単語w1,w2,…,wLからなり、入力部110または記憶部140から入力される文書データである。ただし、入力部110または記憶部140から入力される文書データが単語単位に分割されていない場合には、図示を省略する分割部において単語単位への分割処理(形態素解析)が行われる。
単語生起確率算出部10は、言語モデル部Qおよび算出部12を含む。なお、以下では、言語モデル部を単に言語モデルまたはモデルと適宜称する。言語モデル部Qは、LDA(Latent Dirichlet Allocation)、PLSI(Probabilistic Latent Semantic Indexing)、またはコーパスクラスタリング等の既存の言語モデルに従って構成される。
言語モデル部Qは、C個(C≧2)の話題に対応する単語生起確率テーブルT11,T12,…,T1Cを含む。単語生起確率テーブルT11,T12,…,T1Cは、記憶部140に予め記憶されており、複数の話題それぞれについて単語と単語の単語生起確率とを対応付けている。
言語モデル部Qは、単語生起確率テーブルT11,T12,…,T1Cを用いて、入力単語列hにおける話題混合比Rを推定する。話題混合比の推定処理の詳細については後述する。算出部12は、言語モデル部Qによって推定された話題混合比Rに応じて、単語毎の単語生起確率P(w|h)を算出する。
同様に、単語生起確率算出部10は、言語モデル部Qおよび算出部12を含む。言語モデル部Qは、既存の言語モデルに従って構成されており、C個(C≧2)の話題に対応する単語生起確率テーブルTM1,TM2,…,TMCを含む。単語生起確率テーブルTM1,TM2,…,TMCは、記憶部140に予め記憶されている。なお、言語モデル部Qに含まれる話題の数(単語生起確率テーブルの数)と、言語モデル部Qに含まれる話題の数(単語生起確率テーブルの数)とは、異なっていてもよい。
言語モデル部Qは、単語生起確率テーブルTM1,TM2,…,TMCを用いて、入力単語列hにおける話題混合比Rを推定する。算出部12は、言語モデル部Qによって推定された話題混合比Rに応じて、単語毎の単語生起確率P(w|h)を算出する。
統合処理部20は、単語生起確率算出部101,102,…,10Mによって算出された単語生起確率P(w|h)を単語毎に平均し、平均値を最終的な単語生起確率P(w|h)として出力する。統合処理部20が出力する単語毎の単語生起確率P(w|hは、後述する予測入力や重要語抽出などに用いられる。
このように、文書処理装置100においては、C個の話題に対応する単語生起確率テーブルを有するM個の言語モデルQ1,Q2,…,QMが用いられる。言語モデル部Q1,Q2,…,QMのそれぞれは、学習文書データに基づいて生成される。
具体的には、言語モデルQ1,Q2,…,QMのそれぞれは、C個の潜在的な(=latent; 観測できない)話題Z=(z1, z2,…,zC)が存在し、かつ、各学習文書D=(d1, d2,…,dN)が各話題へ確率的に(非排他的に)所属するとの仮定の元で、話題毎の単語生起確率P(wj | zk)を推定する(1≦j≦V; V=語彙数, 1≦k≦C)ことにより生成される。言語モデルQ1,Q2,…,QMの具体的な生成例については後述する。
(2)単語生起確率テーブルの構成
図3は、単語生起確率テーブルの構成例を示すテーブル構成図である。
図3(a)に示すように、単語生起確率テーブルT11は、特定の話題に対応しており、V個(V≧2)の単語と、当該単語の単語生起確率とを対応付けるテーブルである。単語生起確率テーブルT1Cは、特定の話題に対応しており、V個(V≧2)の単語と、当該単語の単語生起確率とを対応付けるテーブルである。なお、単語生起確率テーブルT11に含まれる単語の数(語彙数)と、単語生起確率テーブルT1Cに含まれる単語の数(語彙数)とは異なっていてもよい。
図3(b)に示すように、単語生起確率テーブルTM1は、特定の話題に対応しており、V個(V≧2)の単語と、当該単語の単語生起確率とを対応付けるテーブルである。単語生起確率テーブルTMCは、特定の話題に対応しており、V個(V≧2)の単語と、当該単語の単語生起確率とを対応付けるテーブルである。
ここで、単語生起確率テーブルT11〜T1Cと、単語生起確率テーブルTM1〜TMCとににおいて、同一の単語に対応する単語生起確率は、異なる値となっている。つまり、各言語モデルにおいて、同一の単語に対応する単語生起確率は異なる値である。
(3)言語モデルの生成処理
次に、言語モデルQ1,Q2,…,QMを生成する具体的手法について説明する。
言語モデルを生成する具体的手法は、言語モデルの種別(LDA、PLSI、またはコーパスクラスタリングなど)によって異なる。しかしながら、LDA、PLSI、またはコーパスクラスタリングなどのいずれにおいても、適当な初期値から出発して反復計算により準最適解に収束させるアルゴリズム(最適化アルゴリズム)が用いられる。このため、最適化アルゴリズムに異なる初期値を与えることによって、同一の学習文書セット(学習文書データ)からM個の異なった学習結果を得ることができる。
あるいは、言語モデル毎に異なる学習文書セットを用いてM個の言語モデルを生成してもよい。例えば、N個の文書からなる学習文書セットD=(d1, d2,…,dN)からNB個(NB≦N)の文書を復元抽出(=重複を許して抽出)する作業をM回行うことにより、NB個の文書からなる異なるサブセット{ DB1, DB2,…, DBM}をM個生成する。これらを学習文書セットとして学習をM回行い、M個の言語モデルを得ることができる。
以下では、LDA、PLSI、コーパスクラスタリングを例に、言語モデルの生成処理について説明する。
(3.1)LDA
LDAでは、各話題zk(1≦k≦C)の生起確率Θ=(θ12,…,θC)を、M次元のディリクレ分布Dir(Θ|α)に従う確率変数と見なし、パラメータα=(α12,…,αC)およびβkj= P(wj | zk)を以下のアルゴリズムにより学習する。
1. αk, βkjに適当な初期値を与える(1≦j≦V, 1≦k≦C)。
2. 以下のE-step, M-stepを収束するまで交互に繰り返す。
E-step: 各文書di毎に変分パラメータφ,γを算出する。
収束するまで以下の式(1)および式(2)を交互に繰り返す(変分ベイズ法)。
Figure 0005175585
ここで、Ψ()は、digamma関数(対数Γ関数の一階微分)である。また、n(di,wj)は文章diにおける語wjの出現回数を表す。
M-step: 変分パラメータφ,γを用いてα,βkjを更新する。
Figure 0005175585
(3.2)PLSI
PLSIでは、各学習文書diがC個の話題zk(1≦k≦C)へ所属確率P(zk|di)で確率的に所属すると考え、以下のアルゴリズムによりパラメータP(wj|zk), P(zk|di)を学習する。
1. P(wj|zk), P(zk|di)に適当な初期値を与える(1≦j≦V, 1≦i≦N, 1≦k≦C)。
2. 以下のE-step, M-stepを収束するまで交互に繰り返す。
E-step:
Figure 0005175585
M-step:
Figure 0005175585
(3.3)非排他的コーパスクラスタリング
非排他的コーパスクラスタリングでは、各学習文書diをdi中に出現する各単語の出現回数を要素とするV次元のベクトル(文書ベクトル)として表現し、これらをC個の話題zkにクラスタリングする。クラスタリング手法としては、一般的なk-means法の他、これを非排他的に拡張したファジィc-means法などを用いることができる。k-means法、ファジィc-means法はそれぞれ、適当な初期値から出発して以下の目的関数Jを最大化するように反復計算を行い収束解を得る。
k-means法:
Figure 0005175585
ファジィc-means法:
Figure 0005175585
k-means法では各文書がC個の潜在話題の内1個のみに排他的に所属する結果が得られる。一方、ファジィc-means法では各文書diが各話題zkに確率uki=P(zk |di)で非排他的に所属する結果が得られる。
得られたクラスタリング結果から、次式により話題毎の単語生起確率P(w|zk)を得る。
Figure 0005175585
(4)話題混合比の推定処理
次に、言語モデル部Q1,Q2,…,QMによって実行される話題混合比の推定処理について説明する。
話題混合比の推定処理は、言語モデルの種別(LDA、PLSI、またはコーパスクラスタリング)によって異なる。以下では、言語モデルの生成処理を、LDA、PLSI、非排他的コーパスクラスタリングについて説明する。
(4.1)LDA
LDAでは、入力単語列hを入力文書dと見なして、学習時のE-step部分を実行し変分パラメータφ,γを算出する。得られたγkを和が1になるよう正規化した値rkk/Σγkを話題混合比とする。
(4.2)PLSI
PLSIでは、入力単語列hを入力文書dと見なし、P(wj|zk)を固定して学習時と同様の計算を行いP(zk|h)を求める。すなわち以下の式を収束するまで繰り返す。得られたP(zk|h)が話題混合比rkとなる。
Figure 0005175585
(4.3)非排他的コーパスクラスタリング
非排他的コーパスクラスタリングでは、入力単語列hを入力文書dと見なして、学習時と同様にh中に出現する各単語の出現回数を要素とするV次元の文書ベクトルdhを生成する。そして学習時に得られた各話題(クラスタ)の重心vkとの類似度を求め、これを文脈hの元での話題混合比rkとする。dhとvkとの類似度としては、一般的なベクトル間のコサイン類似度dh・vk/|dh||vk|を用いることができる。
(5)文書処理装置の動作
図4は、文書処理装置100の動作を示すフローチャートである。
ステップS101において、言語モデル部Q1,Q2,…,QMは、話題混合比Ri(ri1, ri2,…,riC)を推定する。具体的には、LDAでは変分ベイス法、PLSIではEMアルゴリズムによる反復計算で話題混合比Riを求める。コーパスクラスタリングでは入力単語列hと各話題とのコサイン類似度等により話題混合比Riを求める。
ステップS102において、算出部121,122,…,12Mは、言語モデル部Q1,Q2,…,QMが推定した話題混合比rik(1≦i≦M, 1≦k≦C)から、入力単語列hの元での各言語モデルQiによる単語生起確率Pi(w|h)を求める。単語生起確率Pi(w|h)は、単語生起確率算出部101,102,…,10Mのそれぞれで異なる値になる。
Figure 0005175585
ここで、zikは、言語モデルQにおけるk番目の話題である。
ステップS103において、統合処理部20は、各言語モデルについて求められたPi(w|h)を平均し、最終的な単語生起確率P(w|h)とする。
Figure 0005175585
(6)作用・効果
文書処理装置100によれば、各言語モデルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値である。すなわち、互いに異なる言語モデルを用いて単語生起確率Pi(w|h)が算出される。
そして、統合処理部20は、異なる言語モデルを用いて算出された単語生起確率Pi(w|h)の平均値を平均するため、単語生起確率Pi(w|h)の算出精度のばらつきが平準化される。また、言語モデル部Q1,Q2,…,QMのそれぞれを複雑にすることを要しないため、上述した過適応(オーバーフィッティング)も軽減される。
したがって、文書処理装置100によれば、入力単語列hの話題を考慮して単語生起確率を算出する場合でも、単語生起確率の算出精度を良好に保つことができる。
ここで、ある文書集合(新聞記事半年分)を学習文書データとしてLDA言語モデルを構築し、当該学習文書データとは異なる文書集合を評価文書データとして、文書処理装置100の評価を行った結果の例を図5に示す。
図5において、横軸は、システム全体のモデル規模、すなわち各言語モデルの話題数C×モデル数Mを表している。縦軸は、テストセットパープレキシティ(TPP)を表している。TPPは、言語モデルの性能を評価する際に一般的に用いられる指標であり、言語モデルで評価文書データ中の各単語を予測する際の平均分岐数を表す。TPPが大きいほど単語候補を絞り込むのが難しく、小さいほど候補を絞り込めることを意味する。なお、評価文書D=(w1w2...wND)に対するモデルMのTPPは次式で与えられる.
Figure 0005175585
H(D|ML)はDに対する1単語あたりのエントロピーであり、
Figure 0005175585
である。PML()はモデルMによって求めた生起確率を表す。
図5に示すように、単一の言語モデル(従来手法)ではモデル規模(話題数)を大きくしていくとある時点から精度が悪化するのに対し、本実施形態の方法では、システム全体のモデル規模(各モデルの話題数×モデル数)を大きくしても性能が低下しない。したがって、従来手法では到達不可能な推定精度を実現でき、また同程度のモデル規模で従来よりも高い精度が得られる。
また、第1実施形態では、言語モデルQ1,Q2,…,QMのそれぞれは、異なる学習文書データを用いて生成される。このため、個々の言語モデルによる話題混合比の推定結果の幅が広がり、未知の入力単語列hに対する単語生起確率の算出精度をさらに改善できる。
あるいは、言語モデルQ1,Q2,…,QMのそれぞれは、任意の初期値を基に反復計算により準最適解に収束させるアルゴリズムを用いて、同一の学習文書データに基づいて生成され、各言語モデルQ1,Q2,…,QMの生成に用いられるアルゴリズムの初期値を異なる値としてもよい。この場合、異なる学習文書データを用いて言語モデル部Q1,Q2,…,QMを生成する場合よりも容易に言語モデルを構築することができる。
[第1実施形態の変形例]
上述した第1実施形態では、統合処理部20は、各モデルについて求めた単語生起確率Pi(w|h)から最終的な単語生起確率P(w|h)を算出する際、単語生起確率Pi(w|h)を単に平均していた。
しかしながら、統合処理部20は、各言語モデルQ1,Q2,…,QMにおける入力単語列hの生起確率P(h|Qi)を用いて次式のように重み付け平均してもよい。
Figure 0005175585
各言語モデルQ1,Q2,…,QMにおける入力単語列hの生起確率P(h|Qi)は、推定した話題混合比rik(1≦k≦C)を用いて以下のように求めることができる。
Figure 0005175585
このような重み付けにより、単語生起確率Pi(w|h)を平均する際に、精度が高いとみなされる単語生起確率Pi(w|h)の重みを大きくすることができ、最終的な単語生起確率P(w|h)をさらに精度良く算出することができる。
[第2実施形態]
第2実施形態では、予測入力に用いられる文書処理装置100について説明する。具体的には、(1)文書処理装置の機能ブロック構成、(2)リスト並び替え処理、(3)文書処理装置の動作、(4)作用・効果について説明する。第2実施形態において、第1実施形態と重複する説明は省略する。
(1)文書処理装置の機能ブロック構成
図6は、第2実施形態に係る文書処理装置100の機能ブロック構成図である。
第2実施形態に係る文書処理装置100は、話題非依存言語モデル部31、予測候補リスト出力部32および予測候補リスト並び替え部33を備える点で第1実施形態とは異なる。話題非依存言語モデル部31は、話題に依存しない既存の言語モデルに従って構成される。すなわち、話題非依存言語モデル部31は、話題非依存の単語生起確率テーブル(不図示)を有する。
予測候補リスト出力部32は、話題非依存言語モデル部31を用いて、入力単語列h=(w1,w2,…,wL)に後続する単語を予測し、候補単語(c1,c2,…,cK)とその生起確率(P(c1),P(c2),…,P(cK))からなる話題非依存の予測候補リストC1を出力する。予測候補リスト並び替え部33は、予測候補リストC1の候補単語の順位を並び替えて出力する。
(2)リスト並び替え処理
予測候補リスト並び替え部33は、以下のパターン1または2のいずれかを用いて、予測候補リストC1の候補単語の順位を並び替える。
(2.1)パターン1
単語生起確率算出部101,102,…,10Mは、予測候補リストC1に含まれる各単語(c1,c2,…,cK)に対して、各言語モデルQ1, Q2,…,QMを用いて入力単語列hから話題混合比Riを推定し、推定した話題混合比Riから入力単語列hの元での各言語モデルQiによる単語生起確率Pi(ck |h)を求める(1≦i≦M, 1≦k≦K)。さらにPi(ck |h)を平均しP(ck |h)を得る。
予測候補リスト並び替え部33は、P(ck |h)に基づいてC1中の単語の順位を更新し、話題を考慮した予測候補リストC2として出力する。
(2.2)パターン2
パターン2は、話題非依存言語モデルとしてN-グラムモデル(N≧2)を用いる場合(通常、N=2 or 3)に適用される。この場合、予測候補リストC1は、直前の(N-1)単語列(wL-N+2…wL)に後続する候補単語(c1,c2,…,cK)とそのN-グラム確率P(ck | wL-N+2…wL)からなる。(1≦k≦K) この場合、予測候補リスト並び替え部33は、次式により話題を考慮したN-グラム確率を求めて候補を並べ替え、候補リストC2を出力する。
Figure 0005175585
(3)文書処理装置の動作
図7は、第2実施形態に係る文書処理装置100の動作を示すフローチャートである。
ステップS201において、予測候補リスト出力部32は、話題非依存言語モデル部31を用いて、予測候補リストC1を生成する。
ステップS202において、単語生起確率算出部101,102,…,10Mは、予測候補リストC1に含まれる各単語(c1,c2,…,cK)に対して、各言語モデルQ1, Q2,…,QMを用いて入力単語列hから話題混合比Riを推定する。
ステップS203において、単語生起確率算出部101,102,…,10Mは、ステップS202で推定した話題混合比Riから、入力単語列hの元での各言語モデルQiによる単語生起確率Pi(ck |h)を求める。
ステップS204において、予測候補リスト並び替え部33は、ステップS203で得られた単語生起確率Pi(ck |h)に応じて、予測候補リストC1中の単語の順位を更新し、話題を考慮した予測候補リストC2として出力する。予測候補リストC2は、表示部120によって表示される。
(4)作用・効果
第2実施形態によれば、従来よりも予測入力における予測精度が向上し、入力効率を改善できる。また、話題非依存言語モデルを併用することによって、単語生起確率算出部101,102,…,10Mの処理負荷および処理時間を低減することができる。
[第3実施形態]
第3実施形態では、重要語抽出に用いられる文書処理装置100について説明する。具体的には、(1)文書処理装置の機能ブロック構成、(2)文書処理装置の動作、(3)作用・効果について説明する。第3実施形態において、第1実施形態と重複する説明は省略する。
(1)文書処理装置の機能ブロック構成
図8は、第3実施形態に係る文書処理装置100の機能ブロック構成図である。
第3実施形態に係る文書処理装置100は、話題非依存言語モデル部41、単語生起確率算出部42、重要度算出部43および重要語抽出部44を備える点で第1実施形態とは異なる。
話題非依存言語モデル部41は、話題に依存しない既存の話題非依存言語モデルに従って構成される。すなわち、話題非依存言語モデル部41は、話題非依存の単語生起確率テーブル(不図示)を有する。
単語生起確率算出部42は、重要語抽出処理の対象範囲全体を入力単語列h=(w1,w2,…,wL)とし、話題非依存言語モデルに基づき入力単語列h中の各単語の生起確率P(wj)を得る。この処理に先立ち、入力を単語単位に分割するいわゆる形態素解析処理を行う必要がある。
単語生起確率算出部101,102,…,10Mは、入力単語列h=(w1,w2,…,wL)中の各単語に対し、各言語モデルQ1, Q2,…,QMにより話題混合比Riを推定し、入力単語列hの元での各言語モデルQiによる単語生起確率Pi(w |h)を求める(1≦i≦M, 1≦j≦L)。さらにPi(wj |h)を平均することにより、話題を考慮した単語生起確率P(wj |h)を得る。
重要度算出部43は、話題非依存の生起確率P(wj)と、話題を考慮した単語生起確率P(wj |h)とから、各単語の重要度Im(wj)を次式により算出する。
Im(wj) = P(wj |h) / P(wj) (17)
または
Im(wj) = n(h, wj) × P(wj |h) / P(wj) (18)
ここで、n(h, wj)はhにおけるwjの出現回数である。
重要語抽出部44は、入力単語列hの中で、重要度が所定のしきい値以上の単語を重要語として抽出する。抽出率が所定の割合になるように都度、しきい値を決めてもよい。重要語抽出部44が抽出した重要語は、表示部120によって重要箇所として表示・出力される。
(2)文書処理装置の動作
図9は、第3実施形態に係る文書処理装置100の動作を示すフローチャートである。
ステップS301において、単語生起確率算出部42は、話題非依存言語モデルに基づき、入力単語列h中の各単語の生起確率P(wj)を得る。
ステップS302において、単語生起確率算出部101,102,…,10Mは、話題を考慮した単語生起確率P(wj |h)を得る。
ステップS303において、重要度算出部43は、話題非依存の生起確率P(wj)と、話題を考慮した単語生起確率P(wj |h)とから、各単語の重要度Im(wj)を算出する。
ステップS304において、重要語抽出部44は、入力単語列hの中で、重要度が所定のしきい値以上の単語を重要語として抽出する。重要語抽出部44が抽出した重要語は、表示部120によって重要箇所として表示・出力される。
(3)作用・効果
第3実施形態によれば、精度よく重要語を抽出できるため、要約作成などの効率を向上できる。
[第4実施形態]
第4実施形態では、第2実施形態に係る文書処理装置100を、病院等の医療機関において用いられる電子カルテ装置に適用した形態について説明する。
図10は、第4実施形態に係る電子カルテ装置100aの概略構成図である。
図10に示すように、電子カルテ装置100aは、処理部130および記憶部140が配置されるコンピュータ本体160と、入力部110と、表示部120とを含む。ここで、記憶部140には、オペレーティングシステムや、コンピュータを電子カルテ装置として動作させるためのアプリケーションソフトウェア、カルテ文書などが記憶されている。アプリケーションソフトウェアには、入力単語列から話題に基づいて予測入力を行うプログラムが含まれている。表示部120は、カルテ文書を表示する。
病院等の医療機関において電子カルテ等が導入されてきたため、医者や看護士による文書作成の機会が増加してきている。第4実施形態によれば、キーボード操作に熟練していない人でも、少ないキータッチで情報を正確に入力でき、文書入力に関わる負担を軽減することができる。
なお、文書処理装置100を電子カルテ装置100aに適用した場合には、学習文書データとしてカルテ文書が使用される。また、話題としては、例えば、心疾患、消化器疾患、呼吸器疾患等の疾患群の種別が使用される。なお、電子カルテ装置100aに対する予測入力の具体的な適用例については、特開2007−34871号公報を参照されたい。
[その他の実施形態]
上記のように、本発明は実施形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなる。
上述した実施形態では、統合処理部20は、単語生起確率P(w|h)を平均して平均値を最終的な単語生起確率P(w|h)としていたが、平均値に代えて加算値を用いてもよい。
また、単語生起確率算出部101は、単語毎の単語生起確率P1(w|h)を出力していたが、単語生起確率テーブルT11,T12,…,T1C中の全単語について単語生起確率P1(w|h)を算出せずに、一部の単語(例えば、上位のみ)について単語生起確率P1(w|h)を出力してもよい。
第4実施形態では、第2実施形態に係る文書処理装置100を電子カルテ装置に適用した形態について説明したが、第3実施形態に係る文書処理装置100を電子カルテ装置に適用可能であることは勿論である。
このように本発明は、ここでは記載していない様々な実施形態等を包含するということを理解すべきである。したがって、本発明はこの開示から妥当な特許請求の範囲の発明特定事項によってのみ限定されるものである。
本発明の第1実施形態に係る文書処理装置の概略ハードウェア構成図である。 本発明の第1実施形態に係る文書処理装置の機能ブロック構成図である。 本発明の第1実施形態に係る単語生起確率テーブルの構成例を示すテーブル構成図である。 本発明の第1実施形態に係る文書処理装置の動作を示すフローチャートである。 本発明の第1実施形態に係る文書処理装置による効果を説明するための図である。 本発明の第2実施形態に係る文書処理装置の機能ブロック構成図である。 本発明の第2実施形態に係る文書処理装置の動作を示すフローチャートである。 本発明の第3実施形態に係る文書処理装置の機能ブロック構成図である。 本発明の第3実施形態に係る文書処理装置の動作を示すフローチャートである。 本発明の第4実施形態に係る電子カルテ装置の概略構成図である。
符号の説明
101,102,…,10M…単語生起確率算出部、121,122,…,12M…算出部、20…統合処理部、31…話題非依存言語モデル部、32…予測候補リスト出力部、33…予測候補リスト並び替え部、41…話題非依存言語モデル部、42…単語生起確率算出部、43…重要度算出部、44…重要語抽出部、100…文書処理装置、100a…電子カルテ装置、101…単語生起確率算出部、110…入力部、120…表示部、130…処理部、140…記憶部、160…コンピュータ本体

Claims (9)

  1. LDA、PLSI、またはコーパスクラスタリングのいずれかにより生成され、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも1つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出する文書処理装置であって、
    複数の話題に対応する複数の第1単語生起確率テーブルを有する第1言語モデルを用いて、前記入力単語列における話題の第1混合比を推定するとともに、前記第1混合比に応じて前記単語毎の第1単語生起確率を算出する第1単語生起確率算出部と、
    複数の話題に対応する複数の第2単語生起確率テーブルを有する第2言語モデルを用いて、前記入力単語列における話題の第2混合比を推定するとともに、前記第2混合比に応じて前記単語毎の第2単語生起確率を算出する第2単語生起確率算出部と、
    前記第1単語生起確率と前記第2単語生起確率との平均値または加算値を前記単語毎に算出する統合処理部とを備え、
    前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、
    前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを特徴とする文書処理装置。
  2. 前記第1言語モデルと前記第2言語モデルとは、異なる学習文書データを用いて生成されることを特徴とする請求項1に記載の文書処理装置。
  3. 前記第1言語モデルおよび前記第2言語モデルは、任意の初期値を基に反復計算により準最適解に収束させるアルゴリズムを用いて、同一の学習文書データに基づいて生成され、
    前記第1言語モデルの生成に用いられる前記アルゴリズムの初期値と、前記第2言語モデルの生成に用いられる前記アルゴリズムの初期値とは、異なる値であることを特徴とする請求項1に記載の文書処理装置。
  4. 前記第1単語生起確率算出部は、前記第1言語モデルを用いて、前記入力単語列全体に対する第1単語列生起確率をさらに算出し、
    前記第2単語生起確率算出部は、前記第2言語モデルを用いて、前記入力単語列全体に対する第2単語列生起確率をさらに算出し、
    前記統合処理部は、前記第1単語列生起確率に応じて前記第1単語生起確率を重み付けし、前記第2単語列生起確率に応じて前記第2単語生起確率を重み付けすることを特徴とする請求項1〜3のいずれか1項に記載の文書処理装置。
  5. 話題に依存しない話題非依存言語モデルを用いて前記単語毎の単語生起確率を算出する第3単語生起確率算出部と、
    前記統合処理部によって算出された前記平均値または前記加算値と、前記第3単語生起確率算出部によって算出された単語生起確率とに応じて所定の文書処理を実行する処理実行部とをさらに備えることを特徴とする請求項1〜4のいずれか1項に記載の文書処理装置。
  6. 前記所定の文書処理は、前記入力単語列に後続する単語を予測する予測入力であり、
    前記処理実行部は、
    前記第3単語生起確率算出部によって算出された前記単語毎の単語生起確率に応じて前記単語を順位付けしたリストを生成し、
    前記統合処理部によって算出された前記平均値または前記加算値に基づいて、前記リストにおける前記単語の順位を変更することを特徴とする請求項5に記載の文書処理装置。
  7. 前記所定の文書処理は、前記入力単語列を構成する単語のうち重要な単語を抽出する重要語抽出であり、
    前記処理実行部は、
    前記統合処理部によって算出された前記平均値または前記加算値と、前記第3単語生起確率算出部によって算出された単語生起確率とに応じて、前記入力単語列中の前記単語毎の重要度を算出し、
    前記重要度に基づいて前記入力単語列から少なくとも1つの単語を抽出することを特徴とする請求項に記載の文書処理装置。
  8. 請求項1〜7のいずれかに記載の文書処理装置を備え、
    前記話題としてカルテに関連した話題を用いることを特徴とする電子カルテ装置。
  9. LDA、PLSI、またはコーパスクラスタリングのいずれかにより生成され、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも1つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出するコンピュータに、
    複数の話題に対応する複数の第1単語生起確率テーブルを有する第1言語モデルを用いて、前記入力単語列における話題の第1混合比を推定するとともに、前記第1混合比に応じて前記単語毎の第1単語生起確率を算出する手順と、
    複数の話題に対応する複数の第2単語生起確率テーブルを有する第2言語モデルを用いて、前記入力単語列における話題の第2混合比を推定するとともに、前記第2混合比に応じて前記単語毎の第2単語生起確率を算出する手順と、
    前記第1単語生起確率と前記第2単語生起確率との平均値または加算値を前記単語毎に算出する手順とを実行させ、
    前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、
    前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを特徴とする文書処理プログラム。
JP2008066550A 2008-03-14 2008-03-14 文書処理装置、電子カルテ装置および文書処理プログラム Expired - Fee Related JP5175585B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008066550A JP5175585B2 (ja) 2008-03-14 2008-03-14 文書処理装置、電子カルテ装置および文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008066550A JP5175585B2 (ja) 2008-03-14 2008-03-14 文書処理装置、電子カルテ装置および文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2009223560A JP2009223560A (ja) 2009-10-01
JP5175585B2 true JP5175585B2 (ja) 2013-04-03

Family

ID=41240276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008066550A Expired - Fee Related JP5175585B2 (ja) 2008-03-14 2008-03-14 文書処理装置、電子カルテ装置および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP5175585B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5740228B2 (ja) * 2011-07-01 2015-06-24 Kddi株式会社 代表的なコメント抽出方法およびプログラム
JP6026224B2 (ja) * 2012-10-29 2016-11-16 Kddi株式会社 パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
CN105307566B (zh) * 2013-06-18 2018-12-25 皇家飞利浦有限公司 用于预先键入编辑的ecg特征和用于报告解读的自动更新
KR20190090646A (ko) * 2018-01-25 2019-08-02 필아이티 주식회사 단어 예측을 수행하는 방법 및 모바일 장치

Also Published As

Publication number Publication date
JP2009223560A (ja) 2009-10-01

Similar Documents

Publication Publication Date Title
Stein et al. Intrinsic plagiarism analysis
Zhu et al. Balancing accuracy, complexity and interpretability in consumer credit decision making: A C-TOPSIS classification approach
US8612369B2 (en) System and methods for finding hidden topics of documents and preference ranking documents
JP5398007B2 (ja) 関係情報拡張装置、関係情報拡張方法、及びプログラム
US20210365803A1 (en) Machine-learning system and method for identifying same person in genealogical databases
Burdisso et al. τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams
JP2023109253A (ja) 情報処理装置、指数構築方法及びプログラム
Rijcken et al. Topic modeling for interpretable text classification from EHRs
Wang et al. An efficient variance estimator of AUC and its applications to binary classification
JP5175585B2 (ja) 文書処理装置、電子カルテ装置および文書処理プログラム
JP2019204214A (ja) 学習装置、学習方法、プログラム及び推定装置
Liu et al. Boosting feature selection using information metric for classification
US20150006151A1 (en) Model learning method
Hosseini et al. Pool and accuracy based stream classification: a new ensemble algorithm on data stream classification using recurring concepts detection
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
JP2020021343A (ja) 解析装置、解析方法及びプログラム
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Culp et al. On adaptive regularization methods in boosting
Jain et al. Information extraction from CORD-19 using hierarchical clustering and word bank
JP2012108867A (ja) データ抽出装置、データ抽出方法、及びそのプログラム
Richards et al. Comparing classifiers in historical census linkage
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
CN112712866A (zh) 一种确定文本信息相似度的方法及装置
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110225

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20120425

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20120523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121119

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130107

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees