JP5175585B2 - 文書処理装置、電子カルテ装置および文書処理プログラム - Google Patents
文書処理装置、電子カルテ装置および文書処理プログラム Download PDFInfo
- Publication number
- JP5175585B2 JP5175585B2 JP2008066550A JP2008066550A JP5175585B2 JP 5175585 B2 JP5175585 B2 JP 5175585B2 JP 2008066550 A JP2008066550 A JP 2008066550A JP 2008066550 A JP2008066550 A JP 2008066550A JP 5175585 B2 JP5175585 B2 JP 5175585B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- occurrence probability
- language model
- input
- word occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
D.M.Blei他,"Latent Dirichlet Allocation", Journal of Machine Learning Research, 3,2003, p993-1022 T.Hofmann他,"Probabilistic Latent Semantic Indexing", Proceedings of SIGIR’99, 1999, p50-57
第1実施形態では、(1)文書処理装置の構成、(2)単語生起確率テーブルの構成、(3)言語モデルの生成処理、(4)話題混合比の推定処理、(5)文書処理装置の動作および(6)作用・効果について説明する。
第1実施形態に係る文書処理装置の構成、具体的には、(1.1)文書処理装置の概略ハードウェア構成、(1.2)文書処理装置の機能ブロック構成について説明する。
図1は、文書処理装置100の概略ハードウェア構成図である。図1に示すように、文書処理装置100は、入力部110、表示部120、処理部130および記憶部140を含むコンピュータである。
図2は、文書処理装置100の機能ブロック構成、具体的には処理部130によって実行される各機能の機能ブロック構成図である。
図3は、単語生起確率テーブルの構成例を示すテーブル構成図である。
次に、言語モデルQ1,Q2,…,QMを生成する具体的手法について説明する。
LDAでは、各話題zk(1≦k≦C)の生起確率Θ=(θ1,θ2,…,θC)を、M次元のディリクレ分布Dir(Θ|α)に従う確率変数と見なし、パラメータα=(α1,α2,…,αC)およびβkj= P(wj | zk)を以下のアルゴリズムにより学習する。
PLSIでは、各学習文書diがC個の話題zk(1≦k≦C)へ所属確率P(zk|di)で確率的に所属すると考え、以下のアルゴリズムによりパラメータP(wj|zk), P(zk|di)を学習する。
非排他的コーパスクラスタリングでは、各学習文書diをdi中に出現する各単語の出現回数を要素とするV次元のベクトル(文書ベクトル)として表現し、これらをC個の話題zkにクラスタリングする。クラスタリング手法としては、一般的なk-means法の他、これを非排他的に拡張したファジィc-means法などを用いることができる。k-means法、ファジィc-means法はそれぞれ、適当な初期値から出発して以下の目的関数Jを最大化するように反復計算を行い収束解を得る。
次に、言語モデル部Q1,Q2,…,QMによって実行される話題混合比の推定処理について説明する。
LDAでは、入力単語列hを入力文書dと見なして、学習時のE-step部分を実行し変分パラメータφ,γを算出する。得られたγkを和が1になるよう正規化した値rk=γk/Σγkを話題混合比とする。
PLSIでは、入力単語列hを入力文書dと見なし、P(wj|zk)を固定して学習時と同様の計算を行いP(zk|h)を求める。すなわち以下の式を収束するまで繰り返す。得られたP(zk|h)が話題混合比rkとなる。
非排他的コーパスクラスタリングでは、入力単語列hを入力文書dと見なして、学習時と同様にh中に出現する各単語の出現回数を要素とするV次元の文書ベクトルdhを生成する。そして学習時に得られた各話題(クラスタ)の重心vkとの類似度を求め、これを文脈hの元での話題混合比rkとする。dhとvkとの類似度としては、一般的なベクトル間のコサイン類似度dh・vk/|dh||vk|を用いることができる。
図4は、文書処理装置100の動作を示すフローチャートである。
文書処理装置100によれば、各言語モデルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値である。すなわち、互いに異なる言語モデルを用いて単語生起確率Pi(w|h)が算出される。
上述した第1実施形態では、統合処理部20は、各モデルについて求めた単語生起確率Pi(w|h)から最終的な単語生起確率P(w|h)を算出する際、単語生起確率Pi(w|h)を単に平均していた。
第2実施形態では、予測入力に用いられる文書処理装置100について説明する。具体的には、(1)文書処理装置の機能ブロック構成、(2)リスト並び替え処理、(3)文書処理装置の動作、(4)作用・効果について説明する。第2実施形態において、第1実施形態と重複する説明は省略する。
図6は、第2実施形態に係る文書処理装置100の機能ブロック構成図である。
予測候補リスト並び替え部33は、以下のパターン1または2のいずれかを用いて、予測候補リストC1の候補単語の順位を並び替える。
単語生起確率算出部101,102,…,10Mは、予測候補リストC1に含まれる各単語(c1,c2,…,cK)に対して、各言語モデルQ1, Q2,…,QMを用いて入力単語列hから話題混合比Riを推定し、推定した話題混合比Riから入力単語列hの元での各言語モデルQiによる単語生起確率Pi(ck |h)を求める(1≦i≦M, 1≦k≦K)。さらにPi(ck |h)を平均しP(ck |h)を得る。
パターン2は、話題非依存言語モデルとしてN-グラムモデル(N≧2)を用いる場合(通常、N=2 or 3)に適用される。この場合、予測候補リストC1は、直前の(N-1)単語列(wL-N+2…wL)に後続する候補単語(c1,c2,…,cK)とそのN-グラム確率P(ck | wL-N+2…wL)からなる。(1≦k≦K) この場合、予測候補リスト並び替え部33は、次式により話題を考慮したN-グラム確率を求めて候補を並べ替え、候補リストC2を出力する。
図7は、第2実施形態に係る文書処理装置100の動作を示すフローチャートである。
第2実施形態によれば、従来よりも予測入力における予測精度が向上し、入力効率を改善できる。また、話題非依存言語モデルを併用することによって、単語生起確率算出部101,102,…,10Mの処理負荷および処理時間を低減することができる。
第3実施形態では、重要語抽出に用いられる文書処理装置100について説明する。具体的には、(1)文書処理装置の機能ブロック構成、(2)文書処理装置の動作、(3)作用・効果について説明する。第3実施形態において、第1実施形態と重複する説明は省略する。
図8は、第3実施形態に係る文書処理装置100の機能ブロック構成図である。
または
Im(wj) = n(h, wj) × P(wj |h) / P(wj) (18)
ここで、n(h, wj)はhにおけるwjの出現回数である。
図9は、第3実施形態に係る文書処理装置100の動作を示すフローチャートである。
第3実施形態によれば、精度よく重要語を抽出できるため、要約作成などの効率を向上できる。
第4実施形態では、第2実施形態に係る文書処理装置100を、病院等の医療機関において用いられる電子カルテ装置に適用した形態について説明する。
上記のように、本発明は実施形態によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなる。
Claims (9)
- LDA、PLSI、またはコーパスクラスタリングのいずれかにより生成され、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも1つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出する文書処理装置であって、
複数の話題に対応する複数の第1単語生起確率テーブルを有する第1言語モデルを用いて、前記入力単語列における話題の第1混合比を推定するとともに、前記第1混合比に応じて前記単語毎の第1単語生起確率を算出する第1単語生起確率算出部と、
複数の話題に対応する複数の第2単語生起確率テーブルを有する第2言語モデルを用いて、前記入力単語列における話題の第2混合比を推定するとともに、前記第2混合比に応じて前記単語毎の第2単語生起確率を算出する第2単語生起確率算出部と、
前記第1単語生起確率と前記第2単語生起確率との平均値または加算値を前記単語毎に算出する統合処理部とを備え、
前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、
前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを特徴とする文書処理装置。 - 前記第1言語モデルと前記第2言語モデルとは、異なる学習文書データを用いて生成されることを特徴とする請求項1に記載の文書処理装置。
- 前記第1言語モデルおよび前記第2言語モデルは、任意の初期値を基に反復計算により準最適解に収束させるアルゴリズムを用いて、同一の学習文書データに基づいて生成され、
前記第1言語モデルの生成に用いられる前記アルゴリズムの初期値と、前記第2言語モデルの生成に用いられる前記アルゴリズムの初期値とは、異なる値であることを特徴とする請求項1に記載の文書処理装置。 - 前記第1単語生起確率算出部は、前記第1言語モデルを用いて、前記入力単語列全体に対する第1単語列生起確率をさらに算出し、
前記第2単語生起確率算出部は、前記第2言語モデルを用いて、前記入力単語列全体に対する第2単語列生起確率をさらに算出し、
前記統合処理部は、前記第1単語列生起確率に応じて前記第1単語生起確率を重み付けし、前記第2単語列生起確率に応じて前記第2単語生起確率を重み付けすることを特徴とする請求項1〜3のいずれか1項に記載の文書処理装置。 - 話題に依存しない話題非依存言語モデルを用いて前記単語毎の単語生起確率を算出する第3単語生起確率算出部と、
前記統合処理部によって算出された前記平均値または前記加算値と、前記第3単語生起確率算出部によって算出された単語生起確率とに応じて所定の文書処理を実行する処理実行部とをさらに備えることを特徴とする請求項1〜4のいずれか1項に記載の文書処理装置。 - 前記所定の文書処理は、前記入力単語列に後続する単語を予測する予測入力であり、
前記処理実行部は、
前記第3単語生起確率算出部によって算出された前記単語毎の単語生起確率に応じて前記単語を順位付けしたリストを生成し、
前記統合処理部によって算出された前記平均値または前記加算値に基づいて、前記リストにおける前記単語の順位を変更することを特徴とする請求項5に記載の文書処理装置。 - 前記所定の文書処理は、前記入力単語列を構成する単語のうち重要な単語を抽出する重要語抽出であり、
前記処理実行部は、
前記統合処理部によって算出された前記平均値または前記加算値と、前記第3単語生起確率算出部によって算出された単語生起確率とに応じて、前記入力単語列中の前記単語毎の重要度を算出し、
前記重要度に基づいて前記入力単語列から少なくとも1つの単語を抽出することを特徴とする請求項5に記載の文書処理装置。 - 請求項1〜7のいずれかに記載の文書処理装置を備え、
前記話題としてカルテに関連した話題を用いることを特徴とする電子カルテ装置。 - LDA、PLSI、またはコーパスクラスタリングのいずれかにより生成され、複数の話題に対応する複数の単語生起確率テーブルを有する言語モデルを用いて、少なくとも1つの単語からなる入力単語列における話題の混合比を推定するとともに、推定した混合比に応じて、前記入力単語列中の単語毎または前記入力単語列に後続する候補となる単語毎の単語生起確率を算出するコンピュータに、
複数の話題に対応する複数の第1単語生起確率テーブルを有する第1言語モデルを用いて、前記入力単語列における話題の第1混合比を推定するとともに、前記第1混合比に応じて前記単語毎の第1単語生起確率を算出する手順と、
複数の話題に対応する複数の第2単語生起確率テーブルを有する第2言語モデルを用いて、前記入力単語列における話題の第2混合比を推定するとともに、前記第2混合比に応じて前記単語毎の第2単語生起確率を算出する手順と、
前記第1単語生起確率と前記第2単語生起確率との平均値または加算値を前記単語毎に算出する手順とを実行させ、
前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルのそれぞれは、前記単語と前記単語の単語生起確率とを対応付けており、
前記第1単語生起確率テーブルおよび前記第2単語生起確率テーブルにおいて、同一の単語に対応付けられた単語生起確率は、異なる値であることを特徴とする文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008066550A JP5175585B2 (ja) | 2008-03-14 | 2008-03-14 | 文書処理装置、電子カルテ装置および文書処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008066550A JP5175585B2 (ja) | 2008-03-14 | 2008-03-14 | 文書処理装置、電子カルテ装置および文書処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009223560A JP2009223560A (ja) | 2009-10-01 |
JP5175585B2 true JP5175585B2 (ja) | 2013-04-03 |
Family
ID=41240276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008066550A Expired - Fee Related JP5175585B2 (ja) | 2008-03-14 | 2008-03-14 | 文書処理装置、電子カルテ装置および文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5175585B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5740228B2 (ja) * | 2011-07-01 | 2015-06-24 | Kddi株式会社 | 代表的なコメント抽出方法およびプログラム |
JP6026224B2 (ja) * | 2012-10-29 | 2016-11-16 | Kddi株式会社 | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 |
CN105307566B (zh) * | 2013-06-18 | 2018-12-25 | 皇家飞利浦有限公司 | 用于预先键入编辑的ecg特征和用于报告解读的自动更新 |
KR20190090646A (ko) * | 2018-01-25 | 2019-08-02 | 필아이티 주식회사 | 단어 예측을 수행하는 방법 및 모바일 장치 |
-
2008
- 2008-03-14 JP JP2008066550A patent/JP5175585B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009223560A (ja) | 2009-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Stein et al. | Intrinsic plagiarism analysis | |
Zhu et al. | Balancing accuracy, complexity and interpretability in consumer credit decision making: A C-TOPSIS classification approach | |
US8612369B2 (en) | System and methods for finding hidden topics of documents and preference ranking documents | |
JP5398007B2 (ja) | 関係情報拡張装置、関係情報拡張方法、及びプログラム | |
US20210365803A1 (en) | Machine-learning system and method for identifying same person in genealogical databases | |
Burdisso et al. | τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams | |
JP2023109253A (ja) | 情報処理装置、指数構築方法及びプログラム | |
Rijcken et al. | Topic modeling for interpretable text classification from EHRs | |
Wang et al. | An efficient variance estimator of AUC and its applications to binary classification | |
JP5175585B2 (ja) | 文書処理装置、電子カルテ装置および文書処理プログラム | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
Liu et al. | Boosting feature selection using information metric for classification | |
US20150006151A1 (en) | Model learning method | |
Hosseini et al. | Pool and accuracy based stream classification: a new ensemble algorithm on data stream classification using recurring concepts detection | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
JP5379813B2 (ja) | データ抽出装置、データ抽出方法、及びプログラム | |
JP2020021343A (ja) | 解析装置、解析方法及びプログラム | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Culp et al. | On adaptive regularization methods in boosting | |
Jain et al. | Information extraction from CORD-19 using hierarchical clustering and word bank | |
JP2012108867A (ja) | データ抽出装置、データ抽出方法、及びそのプログラム | |
Richards et al. | Comparing classifiers in historical census linkage | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN112712866A (zh) | 一种确定文本信息相似度的方法及装置 | |
JP5342574B2 (ja) | トピックモデリング装置、トピックモデリング方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110225 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20120425 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120918 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121119 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130107 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |