JP2009265758A - 用語入力支援装置及び方法、並びにプログラム - Google Patents

用語入力支援装置及び方法、並びにプログラム Download PDF

Info

Publication number
JP2009265758A
JP2009265758A JP2008111615A JP2008111615A JP2009265758A JP 2009265758 A JP2009265758 A JP 2009265758A JP 2008111615 A JP2008111615 A JP 2008111615A JP 2008111615 A JP2008111615 A JP 2008111615A JP 2009265758 A JP2009265758 A JP 2009265758A
Authority
JP
Japan
Prior art keywords
term
character string
input
dictionary
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008111615A
Other languages
English (en)
Other versions
JP5207810B2 (ja
Inventor
Masakazu Fujio
正和 藤尾
Takeshi Eisaki
健 永崎
Hiroshi Shinjo
広 新庄
Shoichi Nakagami
昇一 中上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008111615A priority Critical patent/JP5207810B2/ja
Publication of JP2009265758A publication Critical patent/JP2009265758A/ja
Application granted granted Critical
Publication of JP5207810B2 publication Critical patent/JP5207810B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】かすれ、つぶれ、難しい漢字であるなどの理由で読みがわからない専門用語の入力をする際に、読めない文字の指定条件を緩めるとともに、候補数が増大した場合でも尤もらしい候補に限って表示する。
【解決手段】予め、専門用語辞書と、読みに変換したパターンと、構成要素に展開したパターンについて、全ての部分文字列の頻度を計算した部分文字列辞書を作成する。そして入力段階で、通常の文字(カタカナひらがな漢字、アルファベット、数字)に加えて、判別できない文字を任意文字として指定する手段と、漢字を構成する偏・旁の並びを指定する手段を用意する。最後に、変換対象となる入力文章に含まれる全ての部分文字列を特徴素とし、各部分文字列の頻度の逆数を基に計算される値を特徴量とする特徴ベクトルを生成し、入力と専門用語間の距離を計算して、予め定められた上限数だけ類似度の高い順に候補を返す。
【選択図】図1

Description

本発明は、難読漢字や判別困難な文字を含む用語(文字列)の入力支援技術に関する。
生・損保、簡保などの保険会社では、契約者から提出された診断書を基に、審査や支払査定を行う。このとき、傷病名欄、手術名欄だけではなく、経過欄に記載されている過去の病歴なども査定の判断材料となる。通常診断書は、専門家である医者が記載するが、入力作業は保険会社もしくは外注、アルバイトなどの素人が担当する。そのため、難解な専門用語や、読めない字が出てくると入力効率が大きく低下するという問題がある。
また近年、これら診断書の入力間違いや入力漏れによる査定ミスが表面化し、社会問題化している。そのため、診断書作成段階、オペレータの入力段階のそれぞれで、入力漏れ・間違いを防ぐ手段が求められている。中でも入力段階で、オペレータが読めない漢字を含む病名・手術名の入力間違い・効率低下を避けることが課題となってくる。
現在、難読漢字を含む用語を入力する手段として、手書き文字入力インタフェースを備えた手段が提案されている(特許文献1又は2参照)。
特開2007−316931号公報 特公平1−28973号公報
しかしながら、特許文献1及び2のどちらも、フロントエンドプロセッサ等で入力している途中で、入力インタフェースを起動して手書き入力する手間が必要となり、入力効率の低下は避けられない。また、指定した部首の並びに厳密に合致するものを検索するため、入力文字列と専門用語辞書の表記がゆらいだ場合などに対応できない。
また、漢字構成要素(偏・旁)を用いた検索が知られているが、この検索方法だけでは、候補となる単語が多く出力するため、選択効率の低下が避けられない。このため、入力文字に対して最も妥当と思われる文字列を評価し、候補として提示する必要がある。
本発明はこのような状況に鑑みてなされたものであり、専門的過ぎて難解な文字列や、かすれていたりつぶれたりして(或いは下手な手書きで)読めない文字列を正確に、かつ効率的に入力することができるようにする手法を提供するものである。
上記課題を解決するために、本発明は、読めない文字(難解な文字や判別不能な文字)を含む文字列に対して判る部分のみを指定して専門用語に変換するものである。
より具体的には、本発明は用語(専門用語や判読不能語)の入力支援に関し、部分文字列辞書の作成と、入力指定と、候補用語の重み付けの処理を含んでいる。部分文字列辞書の処理では、専門用語辞書と、読みに変換したパターンと、構成要素に展開したパターンについて、全ての部分文字列の頻度を計算した部分文字列辞書が作成される。また、入力指定の処理では、通常の文字(カタカナひらがな漢字、アルファベット、数字)に加えて、判別できない文字が任意文字として指定され、或いは、漢字を構成する偏・旁の並びを指定される。候補用語の重み付けの処理では、変換対象となる入力文章に含まれる全ての部分文字列を特徴素とし、各部分文字列の頻度の逆数を基に計算される値を特徴量とする特徴ベクトルを生成し、入力と専門用語間の距離を計算して、予め定められた上限数だけ類似度の高い順に候補を返す。また、既に入力済みの他の項目の内容と変換候補との同時出現確率と、前記類似度の掛け算の値を優先度として、優先度の高い順に候補を返す。
即ち、本発明による用語入力支援装置は、複数の文字で構成される用語の手入力作業を支援する用語入力支援装置であって、用語は少なくとも第1の文字列と第2の文字列を有し、第1の文字列を入力された情報から確定する確定手段(かな漢字変換)と、入力された、第2の文字列を構成する一部の情報である一部構成情報(部首:偏や旁)と確定された第1の文字列とから、第2の文字列の候補を提示する候補提示手段と、第2の文字列の候補を確定し、用語を決定する用語決定手段と、を備えている。
第1の文字列と第2の文字列とは、オペレータが読むことができるか否かを判断基準として入力した指示によって区別されるようになっている。
また、候補提示手段は、第1の文字列(漢字に確定した部分)と一部構成情報(部首や分からない漢字等の部分)との組み合せにおいて連続する複数の文字で構成される部分文字列(例えば、「糖尿病性壊疽」なる難解用語における「糖尿病」)と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示する。
さらに、複数の用語の構成文字及びそれらの組み合せのそれぞれについて、用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、を備えており、候補提示手段が、部分文字列の出現頻度を部分文字列辞書から取得し、出現頻度を用いて特徴量を計算し、各部分文字列の特徴量と用語辞書に含まれる各用語の特徴量とを比較して類似度を計算する。なお、部分文字列の特徴量を計算する際に、同一用語から派生する複数の部分文字列(例えば、「とうにょうびょう」と「とう」)に関し、包含関係にある文字数の少ない部分文字列(当該例では、「とう」)を特徴量の計算対象から除外するようにしてもよい。
また、用語辞書に含まれる用語同士が組み合される確率を意味する同時出現確率を格納する文脈辞書を用意し、既に入力して確定済の用語と前記候補との前記同時出現確率(例えば、「糖尿病2型」と「足褥蒼」が組み合せとして同時に出現する確率がP1)を考慮して類似度の高さを計算するようにしてもよい。
さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。
本発明によれば、専門家でないと読めない専門用語や、活字の潰れ・かすれのほか、手書き文字が汚いため読取れない部分を含む用語について、正確かつ効率的な入力が可能となる。
本発明は、専門的過ぎて専門家でないと難解な文字列や、かすれやつぶれ、或いは下手な手書きで難読な文字列を正確かつ効率よくコンピュータ等に入力することのできる文字列入力支援装置に関する。
以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。
<入力サンプル>
図2は、本発明において対象とする入力サンプル例を示している。即ち、オペレータがその入力サンプルを見てサンプルの記載内容をコンピュータに入力する。図2は、契約(予定)者から保険会社に提出される診断書の一例200である。
通常、医師がその内容を書き、保険会社側で入力を行う。図2において、例えば、項目201は、主病名“嚥下性肺炎”であるが、”嚥”の字がわかりにくい。項目202は、“陳旧性肺結核”であるが、”陳”の文字が読みにくい。項目203は、”糖尿病性壊疽”と書かれているが、”壊疽”の字は判別困難である。また、”糖”の字も、パッと見ただけでは読取れない。
また、図3に、難読漢字を含む専門用語の例を幾つか取り挙げる。いずれも病名の例であるが、専門家でないとなかなか読み方がわからない。通常保険契約や査定で用いられるこのような診断書は、専門家である医者が記載し、入力作業は保険会社もしくは外注、アルバイトなどの素人が担当する。そのため、難解な専門用語や、読めない字が出てくると入力効率が大きく低下するだけでなく、よく似た間違った傷病名や手術名を入力したために、査定間違いに繋がることがある。
以上のように、字がきたない、擦れている、潰れている、漢字が難しいことが、専門用語を含む文書を入力する際の妨げとなる。オンライン手書き認識ソフトを立ち上げて、漢字入力する手段も存在するが、仮名漢字変換システムから一旦離れてことになり、大量の文書を入力する場合の効率低下が避けられない。
<文字入力支援装置の構成>
図1は、本発明の実施形態による文字列入力支援装置(診断書入力システム)の概略構成を示す図である。診断書入力システムは、入力装置110と、画像入力装置111と、表示装置12と、CPU13と、印刷手段14と、ワークエリア15と、情報保持手段16と、を備えている。
ワークエリア15は、OS151のほか、変換プログラム153、通信プログラム152を既に備えているか、若しくは、それらを必要に応じて情報保持手段16からロードする。なお、情報保持手段16は、変換プログラム153が必要とする各種辞書を備えている。
入力装置11としては、例えば、変換プログラム153に入力対象のデータやコマンド等を入力するためのキーボード、マウス、タブレット等が挙げられる。
画像入力装置111としては、例えば、紙文書を処理対象とする場合に、文書を画像データとして、取り込むためのスキャナ等の装置が挙げられる。
OS151は、入力装置11、表示装置12、CPU13、印刷手段14、通信プログラム152、変換プログラム153、その他図示しないメモリ、記憶装置の動作を制御する機能を備える。
通信プログラム152は、処置対象の文書をネットワーク経由で取得するための通信機能を備える。
変換プログラム153は、入力装置110によって入力される文字列と、既に入力されたデータに基づき、入力文字列に対応する専門用語に変換する機能を備える。
情報保持手段16は、用語別部分文字列構成辞書161と、部分文字列頻度辞書162と、入力文脈辞書163と、用語使用頻度辞書164と、用語使用日時辞書165と、を備えている。これらの辞書は、変換プログラム153が入力文字列を変換する際に参照する辞書データベースとして機能している。
用語別部分文字列構成辞書161は、専門用語ごとに、構成部分文字列のリストを保持する。部分文字列頻度辞書162は、専門用語辞書から抽出した部分文字列とその頻度(専門用語辞書内に当該部分文字列が使われている完全文字列がいくつ存在するかを示す指標)を格納する。入力文脈辞書163は、専門用語の入力を行う際に、主病名欄、手術名欄など、既に入力済みの欄の情報と、現在入力中の欄に現われる専門用語(傷病名、手術名、処置・処方名)との同時出現確率を格納する。用語使用頻度辞書164は、各専門用語が入力された頻度情報を格納する。用語使用日時辞書165は、各専門用語が入力された日時情報を格納する。
表示装置12は、変換プログラム153によって入力文字列が変換されていく様子を表示するディスプレイ等の装置である。
CPU13は、ワークエリア15内の各種プログラムをロードし、OS151と協働してプログラムの内容を実行する。
印刷装置14は、変換プログラム153による入力文字列の変換結果を出力するための装置である。
通信ネットワーク19は、ネットワークでつながった別の装置上のデータやワークエリア、情報保持手段にアクセスするための装置である。
<専門用語入力の支援処理:IMEと連携する場合≫
図4は、IME(input method editor)と連携して、専門用語の入力を支援する場合の処理概略を説明するためのフローチャートである。当該フローチャートの動作主体は、特に断らない限り、CPU13である。
まず、オペレータにより既存の仮名漢字変換システムの仮名漢字入力モードをONにされ、かな漢字変換システムが起動される(ステップS401)。次に、かな入力モードで、ローマ字変換入力もしくは仮名漢字変換入力によりかな文字の入力がオペレータにより行われ、その入力された文字の受付処理が行われる(ステップS402)。
続いて、かな入力中に、オペレータが入力モードの切り替えを指示した場合、予め設定したキーバインドに基づき、部首入力に切替えるか、専門用語変換を実行するか指定する(ステップS403)。それ以外には、入力作業を終了する。なにも指定しなければ、かな入力が継続されて通常のかな漢字変換が継続される。
ステップS403において部首入力が選択された場合、カーソル位置にあるかな文字に基づいて適切な部首コードの候補が表示される(ステップS404)。この場合、可能性の高い候補に先に変換しておき、間違っていた場合に、ユーザが特定キーを押すことで候補を表示するようにしてもよい。そして、部首候補選択405では、部首候補の中から適切な部首がオペレータによって選択され、それが受け付けられる(ステップS405)。
ステップS403において専門用語変換が指定された場合、入力済みのかな+部首情報が専門用語に変換される(ステップS406)。変換結果が間違えていた場合、予め設定済みのキーを押すことにより、その他の変換候補が表示され、オペレータ(ユーザ)が選択できるようにする。この時、入力と辞書との類似度計算を行って、予め指定した上限数だけ類似度の高い候補を抽出する。なお、当該専門用語変換のための処理(ステップS406)の詳細は、図5を用いて説明する。
<専門用語変換処理の詳細>
図5は、IME(input method editor)等により入力されたかな部首混在文字列を入力として受け取り、専門用語候補を出力として返す処理の詳細を説明するためのフローチャートである。ここでも各ステップの処理の動作主体は、特に断らない限り、CPU13である。
まず、入力された、あるかな部首混在文字列について、部分文字列頻度辞書514のエントリーが枚挙される(ステップS501)。ここで、部分文字列頻度辞書514は、部分文字列と頻度と対応専門用語へのリンクを格納したものである(図11のテーブル1130参照)。これは、図6の処理に従って、あらかじめ専門用語から作成されるものである。
次に、有効部分文字列選択処理が実行される(ステップS502)。つまり、辞書引きされた部分文字列間の位置的重なり具合により、無効な部分文字列が枝刈りされる。続いて、部分文字列の重み計算処理が実行される(ステップS503)。つまり、使用頻度データ511、使用日時データ512、入力文脈辞書513、及び入力結果一時記憶521と、部分文字列頻度辞書514の内容を組み合せて、部分文字列の重みが計算され、ステップS502の枝刈り処理で残った部分文字列の重みを特徴空間の重みとして、入力に類似する文字列が出力される。計算方法の詳細については、図13以降を用いて説明する。
<専門用語辞書の前処理>
図6は、専門用語変換で用いる部分文字列辞書を生成するための処理(図5の用語辞書の前処理)を説明するためのフローチャートである。上述同様、各ステップの処理の動作主体は、特に断らない限り、CPU13である。
専門用語辞書611は、変換対象となる専門用語を格納するオリジナル辞書である。最初に、辞書エントリーの部首付与処理が実行される(ステップS601)。ここでは、専門用語の漢字の一部を、部首に置き換えものが生成される。例えば、“糖尿病壊疽”→“つちへんやまいだれ”、“陳旧性肺結核”→“ちん旧性肺結核”といった具合である。部首を表すために、JIS90等のJIS標準規格で定められたコードを用いてもよい。
次に、辞書エントリーの読み付与処理が実行される(ステップS602)。ここでは、専門用語の漢字を読みに置き換えたものが生成される。一部のみ置き換えることで、入力文字列が漢字であってもかなであっても、対応する専門用語候補を抽出することができる。
最後に、部分文字列頻度計算が実行される(ステップS603)。ここでは、各専門用語辞書エントリーの全ての部分文字列が生成され、その文字列を持つ専門用語の頻度がカウントされる。そして、その頻度情報が部分文字列頻度辞書614に格納される。
以上のようにして、図11のテーブル1130に示されるような部分文字列頻度辞書(図1における162)が生成される。
<診断書の入力手順に従った処理例>
図7は診断書の入力を行う場合のGUIの一例を示す図である。図7のGUI例は、入力対象の診断書を表示する表示部701と、診断書を見ながらオペレータが対応する項目を入力する入力部702と、を含んでいる。例示した診断書703には、氏名、生年月日、主病名、主病名の原因、合併症、診療期間、入院期間、傷病発生年月日、所見、実施した手術といった項目が含まれている。
入力作業は、例えば、“氏名”→“傷病名”→“入院期間”→“所見”のように、ある順序をもって行われる。従って、所見欄を入力する際に、文脈情報として、傷病名欄や合併症欄の情報を利用することが考えられる。実際の入力事例の中にも、読めない文字を入力する際に、診断書全体を見て判断するケースがある。
また、この例では、所見入力欄704は、診断書の所見欄に書かれている“昨日25日糖尿病性”まで入力された状態となっている。所見欄の“糖尿病性”の文字はかなりきたないため読めない人もいると考えられるが、合併症欄にたまたまきれいな字で“糖尿病”と書いてあり、字形も似ているので、入力者の方で“糖尿病”だと判断し、入力を行うことは容易である。本実施形態においても、“入力文脈辞書”513と“入力結果一時記憶”521を用いることで、既に入力済みの欄の情報から、候補の絞込みを行うことができる。
吹き出し705に示されているのは、所見入力欄704部分を拡大表示したものである。”糖尿病性“の文字の隣に、“壊疽”の文字が汚くて読取れないが、かろうじて、“つちへん”らしきものと“やまいだれ”らしきものが読取れるので、かな入力モードで“つち”と入力したあと、部首変換キーを押す。提示された候補の中から“つちへん”を選択し、入力モードに戻る。部首を指定したあとは、専門用語変換のためのキーを押し、“つちへん”と“やまいだれ”が隣接している専門用語の“壊疽”を候補として提示している。
一般に、部首の形がわかっても、正確な名前がわからないケースも多いと考えられる。その場合、最低限部首の名前だけは覚えてもらうか、部首と名前の対応表を画面横に表示するなどの工夫が必要と考えられる。
なお、部首分類情報を用いることによっても部首の名前がわからない場合に対処できると考えられる。図15は、部首分類情報を格納したテーブルの一例である。項目1501は、部首の大分類をあらわし、項目1502は、部首の細分類もしくは部首そのものを表す。例えば、レコード1511は、部首分類“たれ”の要素として“やまいだれ”が含まれることを示している。このテーブルを用いることにより、文字が汚く“垂れ”であることまでは判別できるが、“やまいだれ”なのか“まだれ”なのか“がんだれ”なのかわからない場合でも、条件指定することができる。
<時系列で示した場合の変換処理>
図8は、以上説明した処理を時系列順に並べて示した図である。系列811は、かな入力モードにおける時系列処理ステップを表す。また、系列812は、部首入力モードにおける時系列処理ステップを表す。さらに、系列813は、専門用語変換モードにおける時系列処理ステップを表す。
まず、オペレータによって、入力対象書類を見ながら、かな入力が実行される(ステップS801)。次に、文字が難しい、もしくは擦れやつぶれにより読みとりが困難な場合、オペレータの指示により、入力モードが部首入力モードに切替えられる(ステップS802)。
部首入力モードでは、カーソル位置のかな文字を基に、部首候補の仮確定がなされ、部首候補が出力される(ステップS803)。次に、提示された部首候補の中から候補となる部首がオペレータによって選択され(ステップS804)、かな入力モードに戻る(ステップS805)。そして、必要なかな、ないしは部首を入力した後、予め設定しておいた専門用語変換用のキーが押される(ステップS807)と、入力モードは専門用語変換モードに移行し、専門用語候補が提示され(ステップS808)。最後に、提示された専門用語の中から、適当な候補がオペレータによって選択されて変換が確定される(ステップS809)。
図9は、図8で示された以上の時系列変換処理を、画面遷移により例示したものである。
画面901は、かな入力モードで“とうにょうびょうせいつち”まで文字が入力され、カーソル範囲を“つち”に合わせて、部首入力モードに入った状態を示している。“つち”に対応する部首として、“つちへん”が表示される。
画面902は、“つちへん”が選択された後かな入力モードに戻り、“たれ”と入力されて部首入力モードに入った状態を示している。部首の候補として、“やまいだれ”、“がんだれ”及び“まだれ”が提示されている。この例では、オペレータは“やまいだれ”を選択する。画面903は、入力されたかなと部首を基に、専門用語変換を実行したときの状態が示されている。文字列911が”糖尿病“として仮確定し、部首文字列912の変換候補として、“壊疽”が提示されている。オペレータは、これが正しいと判断すればこれを選択することになる。
図10は、入力対象のサンプルと、オペレータの入力、専門用語変換結果の一事例を示している。画像1001は、診断書中に書かれている手書き文字のサンプルである。先頭の文字が、“陳”であるが、専門家以外の人にはそれが“陳”であるとは想像しづらい。オペレータの入力指定1010は3種類の指定パターンを示している。パターン1)1011では、不明な部分をワイルドカード“?”で指定している。パターン2)1012とパターン3)1013では、不明な部分をその構成要素のみ指定する。例えば、パターン2)1012では、“こざとへん”を指定している。パターン3)1013では、旁部分を“ひがし”と指定している。各入力に対して、尤もらしい候補として専門用語1021を返す。
以上のような入力パターンの指定を用意することで、文字が難しい、もしくは擦れやつぶれで読み取りが困難な場合にも、指定条件を緩めて、専門用語の変換を実現することができる。
<部首指定の別の形態>
図16は、部首指定を、かな入力モードの中で実施する場合の処理を説明するためのフローチャートである。ここでは、あらかじめ決められた記号が頭にあるかないかで、部首用のかなと、通常のかなを区別するようにしている。
まず、かな漢字変換が起動される(ステップS1601)。次に、オペレータによってかな文字が入力される(ステップS1602)。あるいは、あらかじめ決められた記号が入力され、部首指定の開始点がマークされる。
かなおよび部首名が入力された後、部首指定記号を含むかな文字列を入力として、専門用語変換処理が実行される(ステップS1603)。ステップS1603の処理は、図5の専門用語変換フローと同じであるが、部分文字列辞書引き処理(ステップS501)を実施する前に、入力のうち部首指定範囲が内部IDに変換される。例えば、部首を表す入力が“@たれ”であった場合、一度内部IDに変換された後辞書引き処理が行われる。これにより、“た”、“たれ”などの無駄な部分文字列の使用を避けることができる。
図17は、図16の処理に従って専門用語変換を行う場合の画面遷移例を示す図である。まず、かな入力モードで、通常のかなと部首を指定する記号が入力される(画面1701)。この例では、土偏を“@つち”と指定している。
次に、続けて別の部首が入力される(画面1702)。ここでは、垂れを、“@たれ”と指定されている。
最後に、画面1703で専門用語変換処理が実行され、専門用語“糖尿病壊疽”が取得される。
以上の処理により、難読漢字を含む文字列についても、パーツとの組合せ列を入力することにより、効率的な入力が可能となる。
<専門用語変換候補の計算方法>
図11は、本発明における、専門用語変換を実現するための各辞書の構成を示す図である。テーブル1100(専門用語辞書)は、専門用語と使用頻度を格納したテーブルであり、用語ID1101、用語名1102、読み1103、使用頻度1104から構成される。テーブル1110(用語使用日時辞書)は、用語変換確定日時を格納したテーブルであり、用語ID1111、使用日時1112から構成される。テーブル1110(用語使用日時辞書)は、用語ID1111によってテーブル1100(専門用語辞書)と結び付けられている。
テーブル1120(用語別部分文字列構成辞書)は、元々の専門用語と部分文字列の対応情報を格納するテーブルである。テーブル1120は、文字列ID1121と、用語ID1122から構成される。これにより、各部分文字列を特徴素とする特徴ベクトルを構成することができる。
テーブル1130(部分文字列頻度辞書)は、部分文字列の用語頻度を格納する。このテーブルは、文字列ID1131、部分文字列1132、用語頻度1133から構成される。ここで、用語頻度とは、当該部分文字列を持つ用語が、テーブル1100中に何個存在するか(文字列の固有性)を表すものである。この値が少ないほど、用語を絞り込むことができるため、有効度は高い。このテーブルは、用語辞書の前処理(図6参照)のステップS603において作成される。また、テーブル1140(部分文字列頻度辞書(つづき))は、専門用語の一部を部首で置き換えた文字列や、読みで置き換えた文字列に対して、図6のステップS603の処理を適用して作成される。
<候補重みの計算処理>
図12は、本発明の実施形態において専門用語変換を実現するための入力文脈辞書の内容を示す図である。テーブル1200(入力文脈辞書)は、既に入力済みの項目がある時に、現在入力中の項目の確信度を制御するための同時出現確率を格納している。
テーブル1200は、1つ目の項目名1201と、1つ目の用語ID1202と、2つ目の項目名1203と、2つ目の用語ID1204と、同時出現確率1205と、を有している。例えば、エントリー1211では、傷病名欄にIDが22222である用語が記載されていた場合に、所見欄にID33333の項目が現われる確率を格納する。
テーブル1100(専門用語辞書)を参照すると、ID22222は“糖尿病2型”であり、ID33333は“足褥瘡”であることが分かる。これらの用語間の依存関係は、入力対象とする専門分野の傾向が反映される。例えば、傷病名と合併症、傷病名と手術名などの関係は、医療分野の教科書を参照したり、医療機関の電子カルテデータから抽出することも可能である。また、診断書の例のように、傷病名や手術名、所見を入力する場合には、既に入力確定済みの項目との同時出現確率を反映させることで、候補用語の提示順位を制御することが可能である。
以下に示す式1に、候補用語の優先度を計算する例が示されている。まず、式1において。候補用語term、入力文字列inputとし、termおよびinputから生成される部分文字列をsとする。また、sに対するテーブル1130の用語頻度1133の値をdf(s)とする。この時、入力文字列inputに対する候補用語termの優先度L(term|input)は、式1を用いて算出できる。なお、式1におけるPcol(term,termF)は、確定済み文字列termFの用語IDが用語ID1202であり、候補用語termの用語IDが用語ID1204であるエントリーに関して、両用語が同時に出現する場合の確率1205(同時出現確率)である。
式1は、各部分文字列を特徴素とするベクトルを考え、その出現用語頻度の逆数の対数を重みとする特徴空間での、正規化距離に、入力文脈情報辞書1200による重み付けを行ったものになる。
Figure 2009265758
以上の方法により、各部分文字列の重みと入力履歴を反映させた候補用語の優先付けを行うことができる。
<部分文字列の有効性の判定>
本発明の実施形態では、テーブル1100(専門用語辞書)およびデーブル1130(部分文字列頻度辞書)を参照して、入力文字列から、部分文字列を特徴素とする特徴ベクトルを構成する(図5参照)。但し、全ての部分文字列をそのまま用いる場合は、ベクトルの次元数が爆発するため、計算量が増大する。また部分文字列同士は厳密には独立ではなく、依存関係があるため、間違った候補の部分文字列の重みを重複してカウントすることがある。
そこで、以上の2点の問題を避けるため、使用する部分文字列の次元削減を行うとよい。次元圧縮をする方法としては、学習データを基に事前に行う場合と、変換処理の実行時に行う場合がありうる。ここでは、変換処理実行時に次元削減を行うオンライン特徴選択について説明する。なお、事前に行う場合も基本的には同様の処理がなされる。
図13は、入力文字列1300“とうにょうびょうせい[つちへん][やまいだれ]”に対し、図5の部分文字列辞書引き処理S501を実行施したときの状態を示している。ここでは、部分文字列1311は用語ID1357945から生成された文字列であることを表し、部分文字列1312は用語ID1002345から生成された文字列であることを表す。これらの各部分文字列に対し、IDが一致する部分文字列間の包含関係を調べる。そして、他方に完全に包含される部分文字列を枝刈りする。
図13の例では、部分文字列1311、部分文字列1321、部分文字列1323は、部分文字列1316に包含される。また、部分文字列1317は部分文字列1313に包含される。また、部分文字列1314は部分文字列1318に包含され、部分文字列1319は部分文字列1315に包含される。
そして、以上の包含関係の判定により、不要なものを取り除いた語の文字列一覧を示すと図14のようになる。最後に、残った部分文字列を用いて、上記式1の値を計算して変換候補リストを順序づけて提示する。
このように入力文字列に応じて有効な部分文字列特徴のみを選択することで、全ての部分文字列を特徴素とするベクトル演算の速度を向上させることができる。
<候補優先度演算の省略>
本発明の別の態様として、候補優先度演算を省略する場合について説明する。
一般に、IME(input method editor)を用いて候補を表示する場合、上限nを決めて、結果を表示することが多い。
従って、図5のステップS501の処理を実行し、部分文字列辞書1130を参照した段階で、用語頻度1133の値がn以下のものが存在すれば、当該n個の候補をそのまま表示すればよい。
よって、式1を計算する代わりに、用語頻度1133の値が最小のものを見つけ、テーブル1120から対応する用語IDを抽出すればよい。
これにより、入力文字列に対応する専門用語候補の提示速度を向上することができる。
<使用頻度と入力履歴を組み合せた候補優先度の演算>
本発明のさらに別の態様として、使用頻度と入力履歴を組み合わせた優先度計算方法について説明する。本演算は、テーブル1100および1110を参照する。まず、図5の部分文字列辞書引き処理(ステップS501)を実行した後、候補にあがった各専門用語用語について、テーブル1110の使用日時1112の新しい順にソートする。その順位をOrdertime(term)とする。次に、専門用語辞書1100の使用頻度1104の値の大きい順にソートする。その順位をOrderfreq(term)とする。以上を用いて、候補優先度を以下の式2を用いて演算する。
Figure 2009265758
<その他>
本発明は、金融機関、生・損保等において、契約者が持ち込む文書データの入力を行う場面などで有効に適用することができる。
また、本発明により、利用頻度、日時を反映させて、入力文字列に該当すると思われる専門用語リストを順位づけて提示することができる。また、本発明により、 素人にとって難解な漢字や、擦れ、つぶれ等によって読取りにくい文字を含む文章に対しても、効率的にデータ入力を行うことができる。
なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD-RW、CD-R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
本発明の実施形態は、日本語のかな漢字変換を例に説明されているが、本発明は日本語に限らず、ハングル語やタイ語等にも適用可能である。
本発明の実施形態による入力支援装置の概略構成を示す図である。 難読用語を含む診断書の例を示す図である。 難読漢字サンプルを示す図である。 入力支援装置の変換処理の概要を説明するためのフローチャートである。 専門用語変換処理の内容を説明するためのフローチャートである。 専門用語辞書の前処理を説明するためのフローチャートである。 入力システムのユーザインタフェース例を示す図である。 入力システムの時系列処理を示すフローチャートである。 本実施形態の処理における画面遷移例を示す図である。 入力文字列の指定例を示す図である。 部分文字列辞書の例を示す図である。 入力文脈辞書の例を示す図である。 入力文字列より生成した部分文字列群の包含関係の例を示す図である。 有効部分文字列の選択例を示す図である。 部首分類辞書の例を示す図である。 変換処理の全体を示すフローチャートである。 別の態様による処理における画面遷移例を示す図である。
符号の説明
10・・・入力支援装置、11・・・入力装置、12・・・表示装置、13・・・CPU、14・・・印刷装置、15・・・ワークエリア、16・・・情報保持手段、19・・・通信ネットワーク

Claims (20)

  1. 難読な又は判別困難な文字を含む対象用語の手入力作業を支援する用語入力支援装置であって、
    前記対象用語は少なくとも第1の文字列と第2の文字列を有し、前記第1の文字列を入力されたかな情報から漢字変換して確定する確定手段と、
    入力された前記第2の文字列の一部を構成する部首名と、前記確定された第1の文字列との組み合せから、前記第2の文字列の候補を特定し、前記対象用語の候補を提示する候補提示手段と、
    入力された指示に従って前記候補の中から前記対象用語を決定する用語決定手段と、
    を備えることを特徴とする用語入力支援装置。
  2. 前記候補提示手段は、前記第1の文字列と前記第2の文字列との組み合せにおいて連続する複数の文字で構成される部分文字列と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示することを特徴とする請求項1に記載の用語入力支援装置。
  3. さらに、前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、を備え、
    前記候補提示手段は、前記部分文字列の前記出現頻度を前記部分文字列辞書から取得し、前記出現頻度の逆数を基に特徴量を計算し、各部分文字列の特徴量と前記用語辞書に含まれる各用語の特徴量とを比較して前記類似度を計算することを特徴とする請求項2に記載の用語入力支援装置。
  4. 複数の文字で構成される用語の手入力作業を支援する用語入力支援装置であって、
    前記用語は少なくとも第1の文字列と第2の文字列を有し、前記第1の文字列を入力された情報から確定する確定手段と、
    入力された、前記第2の文字列を構成する一部の情報である一部構成情報と、前記確定された第1の文字列とから、前記第2の文字列の候補を提示する候補提示手段と、
    前記第2の文字列の候補を確定し、前記用語を決定する用語決定手段と、
    を備えることを特徴とする用語入力支援装置。
  5. 前記第1の文字列は第1の入力モードによって入力され、前記一部構成情報は前記第1の入力モードとは異なる第2の入力モードによって入力されることを特徴とする請求項4に記載の用語入力支援装置。
  6. 前記第1の文字列と前記第2の文字列とは、オペレータの指定によって区別されることを特徴とする請求項4に記載の用語入力支援装置。
  7. 前記候補提示手段は、前記第1の文字列と前記一部構成情報との組み合せにおいて連続する複数の文字で構成される部分文字列と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示することを特徴とする請求項4に記載の用語入力支援装置。
  8. さらに、前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、を備え、
    前記候補提示手段は、前記部分文字列の前記出現頻度を前記部分文字列辞書から取得し、前記出現頻度を用いて特徴量を計算し、各部分文字列の特徴量と前記用語辞書に含まれる各用語の特徴量とを比較して前記類似度を計算することを特徴とする請求項7に記載の用語入力支援装置。
  9. 前記候補提示手段は、前記部分文字列の特徴量を計算する際に、同一用語から派生する複数の部分文字列に関し、包含関係にある文字数の少ない部分文字列を前記特徴量の計算対象から除外することを特徴とする請求項8に記載の用語入力支援装置。
  10. 前記候補提示手段は、前記部分文字列を含む用語の数の最小値が予め設定された上限候補以下である場合には、当該部分文字列を含む用語をそのまま提示することを特徴とする請求項7に記載の用語入力支援装置。
  11. さらに、前記用語辞書に含まれる用語同士が組み合される確率を意味する同時出現確率を格納する文脈辞書を備え、
    前記候補提示手段は、既に入力して確定済の用語と前記候補との前記同時出現確率を考慮して前記類似度の高さを計算することを特徴とする請求項7に記載の用語入力支援装置。
  12. コンピュータを用いて複数の文字で構成される用語の手入力作業を支援する用語入力支援方法であって、
    前記コンピュータが、
    前記用語は少なくとも第1の文字列と第2の文字列を有し、前記第1の文字列を入力された情報から確定する工程と、
    入力された、前記第2の文字列を構成する一部の情報である一部構成情報と、前記確定された第1の文字列とから、前記第2の文字列の候補を提示する工程と、
    前記第2の文字列の候補を確定し、前記用語を決定する工程と、
    を実行することを特徴とする用語入力支援方法。
  13. 前記第1の文字列は第1の入力モードによって入力され、前記一部構成情報は前記第1の入力モードとは異なる第2の入力モードによって入力されることを特徴とする請求項12に記載の用語入力支援方法。
  14. 前記第1の文字列と前記第2の文字列とは、オペレータの指定によって区別されることを特徴とする請求項12に記載の用語入力支援方法。
  15. 前記候補を提示する工程で、前記コンピュータは、前記第1の文字列と前記一部構成情報との組み合せにおいて連続する複数の文字で構成される部分文字列と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示することを特徴とする請求項12に記載の用語入力支援方法。
  16. 前記候補を提示する工程で、前記コンピュータは、前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書を用い、
    前記部分文字列の前記出現頻度を前記部分文字列辞書から取得し、前記出現頻度を用いて特徴量を計算し、各部分文字列の特徴量と前記用語辞書に含まれる各用語の特徴量とを比較して前記類似度を計算することを特徴とする請求項15に記載の用語入力支援方法。
  17. 前記候補を提示する工程で、前記コンピュータは、前記部分文字列の特徴量を計算する際に、同一用語から派生する複数の部分文字列に関し、包含関係にある文字数の少ない部分文字列を前記特徴量の計算対象から除外することを特徴とする請求項16に記載の用語入力支援方法。
  18. 前記候補を提示する工程で、前記コンピュータは、前記部分文字列を含む用語の数の最小値が予め設定された上限候補以下である場合には、当該部分文字列を含む用語をそのまま提示することを特徴とする請求項17に記載の用語入力支援方法。
  19. 前記候補を提示する工程で、コンピュータは、前記用語辞書に含まれる用語同士が組み合される確率を意味する同時出現確率を格納する文脈辞書を用い、
    既に入力して確定済の用語と前記候補との前記同時出現確率を考慮して前記類似度の高さを計算することを特徴とする請求項15に記載の用語入力支援方法。
  20. コンピュータに請求項12に記載の用語入力支援方法を実行させるためのプログラム。
JP2008111615A 2008-04-22 2008-04-22 用語入力支援装置及び方法、並びにプログラム Expired - Fee Related JP5207810B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008111615A JP5207810B2 (ja) 2008-04-22 2008-04-22 用語入力支援装置及び方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008111615A JP5207810B2 (ja) 2008-04-22 2008-04-22 用語入力支援装置及び方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2009265758A true JP2009265758A (ja) 2009-11-12
JP5207810B2 JP5207810B2 (ja) 2013-06-12

Family

ID=41391569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008111615A Expired - Fee Related JP5207810B2 (ja) 2008-04-22 2008-04-22 用語入力支援装置及び方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP5207810B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020008994A (ja) * 2018-07-04 2020-01-16 株式会社医療情報技術研究所 医療文書管理システム
JP2021012738A (ja) * 2020-10-22 2021-02-04 株式会社医療情報技術研究所 医療文書管理システム
WO2021199246A1 (ja) * 2020-03-31 2021-10-07 株式会社Peco 動物医療用語の入力支援システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62245365A (ja) * 1986-04-16 1987-10-26 Nec Corp 漢字入力方式
JPH01259448A (ja) * 1988-04-08 1989-10-17 Matsushita Graphic Commun Syst Inc 漢字入力方式
JPH0512257A (ja) * 1991-02-25 1993-01-22 Toshiba Corp 文書作成装置
JPH08297664A (ja) * 1995-04-27 1996-11-12 Sharp Corp 文字列処理装置
JPH1011431A (ja) * 1996-06-19 1998-01-16 Okinawa Nippon Denki Software Kk 漢字検索装置および方法
JP2007034871A (ja) * 2005-07-29 2007-02-08 Sanyo Electric Co Ltd 文字入力装置および文字入力装置プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62245365A (ja) * 1986-04-16 1987-10-26 Nec Corp 漢字入力方式
JPH01259448A (ja) * 1988-04-08 1989-10-17 Matsushita Graphic Commun Syst Inc 漢字入力方式
JPH0512257A (ja) * 1991-02-25 1993-01-22 Toshiba Corp 文書作成装置
JPH08297664A (ja) * 1995-04-27 1996-11-12 Sharp Corp 文字列処理装置
JPH1011431A (ja) * 1996-06-19 1998-01-16 Okinawa Nippon Denki Software Kk 漢字検索装置および方法
JP2007034871A (ja) * 2005-07-29 2007-02-08 Sanyo Electric Co Ltd 文字入力装置および文字入力装置プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020008994A (ja) * 2018-07-04 2020-01-16 株式会社医療情報技術研究所 医療文書管理システム
WO2021199246A1 (ja) * 2020-03-31 2021-10-07 株式会社Peco 動物医療用語の入力支援システム
JP6964378B1 (ja) * 2020-03-31 2021-11-10 株式会社Peco 動物医療用語の入力支援システム
JP2021012738A (ja) * 2020-10-22 2021-02-04 株式会社医療情報技術研究所 医療文書管理システム
JP7008939B2 (ja) 2020-10-22 2022-01-25 株式会社医療情報技術研究所 医療文書管理システム

Also Published As

Publication number Publication date
JP5207810B2 (ja) 2013-06-12

Similar Documents

Publication Publication Date Title
JP2006276911A (ja) 電子機器およびプログラム
JP2011513810A (ja) 用語識別方法および装置
JP6529254B2 (ja) 情報処理装置、情報処理方法、プログラムおよび記憶媒体
JP5207810B2 (ja) 用語入力支援装置及び方法、並びにプログラム
JPH1153394A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145289A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145290A (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
US8335680B2 (en) Electronic apparatus with dictionary function background
JP2011107966A (ja) 文書処理装置
US11163785B2 (en) Document search result presentation apparatus and non-transitory computer readable medium
US20200301952A1 (en) Document search assist apparatus and non-transitory computer readable medium, and document search assist system
JP7315420B2 (ja) テキストの適合および修正の方法
JP2009026007A (ja) 辞書機能を備えた電子装置および制御プログラム
WO2015004787A1 (ja) 入力支援装置
JP5348964B2 (ja) 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US20140111438A1 (en) System, method and apparatus for the transcription of data using human optical character matching (hocm)
JP7491022B2 (ja) 書類識別装置、書類識別方法及びコンピュータプログラム
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
US20220309272A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
JP5233424B2 (ja) 検索装置およびプログラム
JP2003323441A (ja) イメージカルテ管理システム
JP2005208687A (ja) 多言語文書処理装置及びプログラム
JP2016062442A (ja) 情報表示装置、情報表示プログラムおよび情報表示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130219

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 5207810

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160301

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees