JP2009265758A

JP2009265758A - 用語入力支援装置及び方法、並びにプログラム

Info

Publication number: JP2009265758A
Application number: JP2008111615A
Authority: JP
Inventors: Masakazu Fujio; 正和藤尾; Takeshi Eisaki; 健永崎; Hiroshi Shinjo; 広新庄; Shoichi Nakagami; 昇一中上
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-04-22
Filing date: 2008-04-22
Publication date: 2009-11-12
Anticipated expiration: 2028-04-22
Also published as: JP5207810B2

Abstract

【課題】かすれ、つぶれ、難しい漢字であるなどの理由で読みがわからない専門用語の入力をする際に、読めない文字の指定条件を緩めるとともに、候補数が増大した場合でも尤もらしい候補に限って表示する。
【解決手段】予め、専門用語辞書と、読みに変換したパターンと、構成要素に展開したパターンについて、全ての部分文字列の頻度を計算した部分文字列辞書を作成する。そして入力段階で、通常の文字（カタカナひらがな漢字、アルファベット、数字）に加えて、判別できない文字を任意文字として指定する手段と、漢字を構成する偏・旁の並びを指定する手段を用意する。最後に、変換対象となる入力文章に含まれる全ての部分文字列を特徴素とし、各部分文字列の頻度の逆数を基に計算される値を特徴量とする特徴ベクトルを生成し、入力と専門用語間の距離を計算して、予め定められた上限数だけ類似度の高い順に候補を返す。
【選択図】図１

Description

本発明は、難読漢字や判別困難な文字を含む用語（文字列）の入力支援技術に関する。

生・損保、簡保などの保険会社では、契約者から提出された診断書を基に、審査や支払査定を行う。このとき、傷病名欄、手術名欄だけではなく、経過欄に記載されている過去の病歴なども査定の判断材料となる。通常診断書は、専門家である医者が記載するが、入力作業は保険会社もしくは外注、アルバイトなどの素人が担当する。そのため、難解な専門用語や、読めない字が出てくると入力効率が大きく低下するという問題がある。

また近年、これら診断書の入力間違いや入力漏れによる査定ミスが表面化し、社会問題化している。そのため、診断書作成段階、オペレータの入力段階のそれぞれで、入力漏れ・間違いを防ぐ手段が求められている。中でも入力段階で、オペレータが読めない漢字を含む病名・手術名の入力間違い・効率低下を避けることが課題となってくる。

現在、難読漢字を含む用語を入力する手段として、手書き文字入力インタフェースを備えた手段が提案されている（特許文献１又は２参照）。

特開２００７−３１６９３１号公報特公平１−２８９７３号公報

しかしながら、特許文献１及び２のどちらも、フロントエンドプロセッサ等で入力している途中で、入力インタフェースを起動して手書き入力する手間が必要となり、入力効率の低下は避けられない。また、指定した部首の並びに厳密に合致するものを検索するため、入力文字列と専門用語辞書の表記がゆらいだ場合などに対応できない。

また、漢字構成要素（偏・旁）を用いた検索が知られているが、この検索方法だけでは、候補となる単語が多く出力するため、選択効率の低下が避けられない。このため、入力文字に対して最も妥当と思われる文字列を評価し、候補として提示する必要がある。

本発明はこのような状況に鑑みてなされたものであり、専門的過ぎて難解な文字列や、かすれていたりつぶれたりして（或いは下手な手書きで）読めない文字列を正確に、かつ効率的に入力することができるようにする手法を提供するものである。

上記課題を解決するために、本発明は、読めない文字（難解な文字や判別不能な文字）を含む文字列に対して判る部分のみを指定して専門用語に変換するものである。

より具体的には、本発明は用語（専門用語や判読不能語）の入力支援に関し、部分文字列辞書の作成と、入力指定と、候補用語の重み付けの処理を含んでいる。部分文字列辞書の処理では、専門用語辞書と、読みに変換したパターンと、構成要素に展開したパターンについて、全ての部分文字列の頻度を計算した部分文字列辞書が作成される。また、入力指定の処理では、通常の文字（カタカナひらがな漢字、アルファベット、数字）に加えて、判別できない文字が任意文字として指定され、或いは、漢字を構成する偏・旁の並びを指定される。候補用語の重み付けの処理では、変換対象となる入力文章に含まれる全ての部分文字列を特徴素とし、各部分文字列の頻度の逆数を基に計算される値を特徴量とする特徴ベクトルを生成し、入力と専門用語間の距離を計算して、予め定められた上限数だけ類似度の高い順に候補を返す。また、既に入力済みの他の項目の内容と変換候補との同時出現確率と、前記類似度の掛け算の値を優先度として、優先度の高い順に候補を返す。

即ち、本発明による用語入力支援装置は、複数の文字で構成される用語の手入力作業を支援する用語入力支援装置であって、用語は少なくとも第１の文字列と第２の文字列を有し、第１の文字列を入力された情報から確定する確定手段（かな漢字変換）と、入力された、第２の文字列を構成する一部の情報である一部構成情報（部首：偏や旁）と確定された第１の文字列とから、第２の文字列の候補を提示する候補提示手段と、第２の文字列の候補を確定し、用語を決定する用語決定手段と、を備えている。

第１の文字列と第２の文字列とは、オペレータが読むことができるか否かを判断基準として入力した指示によって区別されるようになっている。

また、候補提示手段は、第１の文字列（漢字に確定した部分）と一部構成情報（部首や分からない漢字等の部分）との組み合せにおいて連続する複数の文字で構成される部分文字列（例えば、「糖尿病性壊疽」なる難解用語における「糖尿病」）と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示する。

さらに、複数の用語の構成文字及びそれらの組み合せのそれぞれについて、用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、を備えており、候補提示手段が、部分文字列の出現頻度を部分文字列辞書から取得し、出現頻度を用いて特徴量を計算し、各部分文字列の特徴量と用語辞書に含まれる各用語の特徴量とを比較して類似度を計算する。なお、部分文字列の特徴量を計算する際に、同一用語から派生する複数の部分文字列（例えば、「とうにょうびょう」と「とう」）に関し、包含関係にある文字数の少ない部分文字列（当該例では、「とう」）を特徴量の計算対象から除外するようにしてもよい。

また、用語辞書に含まれる用語同士が組み合される確率を意味する同時出現確率を格納する文脈辞書を用意し、既に入力して確定済の用語と前記候補との前記同時出現確率（例えば、「糖尿病２型」と「足褥蒼」が組み合せとして同時に出現する確率がＰ１）を考慮して類似度の高さを計算するようにしてもよい。

さらなる本発明の特徴は、以下本発明を実施するための最良の形態および添付図面によって明らかになるものである。

本発明によれば、専門家でないと読めない専門用語や、活字の潰れ・かすれのほか、手書き文字が汚いため読取れない部分を含む用語について、正確かつ効率的な入力が可能となる。

本発明は、専門的過ぎて専門家でないと難解な文字列や、かすれやつぶれ、或いは下手な手書きで難読な文字列を正確かつ効率よくコンピュータ等に入力することのできる文字列入力支援装置に関する。

以下、添付図面を参照して本発明の実施形態について説明する。ただし、本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。また、各図において共通の構成については同一の参照番号が付されている。

＜入力サンプル＞
図２は、本発明において対象とする入力サンプル例を示している。即ち、オペレータがその入力サンプルを見てサンプルの記載内容をコンピュータに入力する。図２は、契約（予定）者から保険会社に提出される診断書の一例２００である。

通常、医師がその内容を書き、保険会社側で入力を行う。図２において、例えば、項目２０１は、主病名“嚥下性肺炎”であるが、”嚥”の字がわかりにくい。項目２０２は、“陳旧性肺結核”であるが、”陳”の文字が読みにくい。項目２０３は、”糖尿病性壊疽”と書かれているが、”壊疽”の字は判別困難である。また、”糖”の字も、パッと見ただけでは読取れない。

また、図３に、難読漢字を含む専門用語の例を幾つか取り挙げる。いずれも病名の例であるが、専門家でないとなかなか読み方がわからない。通常保険契約や査定で用いられるこのような診断書は、専門家である医者が記載し、入力作業は保険会社もしくは外注、アルバイトなどの素人が担当する。そのため、難解な専門用語や、読めない字が出てくると入力効率が大きく低下するだけでなく、よく似た間違った傷病名や手術名を入力したために、査定間違いに繋がることがある。

以上のように、字がきたない、擦れている、潰れている、漢字が難しいことが、専門用語を含む文書を入力する際の妨げとなる。オンライン手書き認識ソフトを立ち上げて、漢字入力する手段も存在するが、仮名漢字変換システムから一旦離れてことになり、大量の文書を入力する場合の効率低下が避けられない。

＜文字入力支援装置の構成＞
図１は、本発明の実施形態による文字列入力支援装置（診断書入力システム）の概略構成を示す図である。診断書入力システムは、入力装置１１０と、画像入力装置１１１と、表示装置１２と、ＣＰＵ１３と、印刷手段１４と、ワークエリア１５と、情報保持手段１６と、を備えている。

ワークエリア１５は、ＯＳ１５１のほか、変換プログラム１５３、通信プログラム１５２を既に備えているか、若しくは、それらを必要に応じて情報保持手段１６からロードする。なお、情報保持手段１６は、変換プログラム１５３が必要とする各種辞書を備えている。

入力装置１１としては、例えば、変換プログラム１５３に入力対象のデータやコマンド等を入力するためのキーボード、マウス、タブレット等が挙げられる。

画像入力装置１１１としては、例えば、紙文書を処理対象とする場合に、文書を画像データとして、取り込むためのスキャナ等の装置が挙げられる。

ＯＳ１５１は、入力装置１１、表示装置１２、ＣＰＵ１３、印刷手段１４、通信プログラム１５２、変換プログラム１５３、その他図示しないメモリ、記憶装置の動作を制御する機能を備える。

通信プログラム１５２は、処置対象の文書をネットワーク経由で取得するための通信機能を備える。

変換プログラム１５３は、入力装置１１０によって入力される文字列と、既に入力されたデータに基づき、入力文字列に対応する専門用語に変換する機能を備える。

情報保持手段１６は、用語別部分文字列構成辞書１６１と、部分文字列頻度辞書１６２と、入力文脈辞書１６３と、用語使用頻度辞書１６４と、用語使用日時辞書１６５と、を備えている。これらの辞書は、変換プログラム１５３が入力文字列を変換する際に参照する辞書データベースとして機能している。

用語別部分文字列構成辞書１６１は、専門用語ごとに、構成部分文字列のリストを保持する。部分文字列頻度辞書１６２は、専門用語辞書から抽出した部分文字列とその頻度（専門用語辞書内に当該部分文字列が使われている完全文字列がいくつ存在するかを示す指標）を格納する。入力文脈辞書１６３は、専門用語の入力を行う際に、主病名欄、手術名欄など、既に入力済みの欄の情報と、現在入力中の欄に現われる専門用語（傷病名、手術名、処置・処方名）との同時出現確率を格納する。用語使用頻度辞書１６４は、各専門用語が入力された頻度情報を格納する。用語使用日時辞書１６５は、各専門用語が入力された日時情報を格納する。

表示装置１２は、変換プログラム１５３によって入力文字列が変換されていく様子を表示するディスプレイ等の装置である。

ＣＰＵ１３は、ワークエリア１５内の各種プログラムをロードし、ＯＳ１５１と協働してプログラムの内容を実行する。

印刷装置１４は、変換プログラム１５３による入力文字列の変換結果を出力するための装置である。

通信ネットワーク１９は、ネットワークでつながった別の装置上のデータやワークエリア、情報保持手段にアクセスするための装置である。

＜専門用語入力の支援処理：ＩＭＥと連携する場合≫
図４は、ＩＭＥ（input method editor）と連携して、専門用語の入力を支援する場合の処理概略を説明するためのフローチャートである。当該フローチャートの動作主体は、特に断らない限り、ＣＰＵ１３である。

まず、オペレータにより既存の仮名漢字変換システムの仮名漢字入力モードをＯＮにされ、かな漢字変換システムが起動される（ステップＳ４０１）。次に、かな入力モードで、ローマ字変換入力もしくは仮名漢字変換入力によりかな文字の入力がオペレータにより行われ、その入力された文字の受付処理が行われる（ステップＳ４０２）。

続いて、かな入力中に、オペレータが入力モードの切り替えを指示した場合、予め設定したキーバインドに基づき、部首入力に切替えるか、専門用語変換を実行するか指定する（ステップＳ４０３）。それ以外には、入力作業を終了する。なにも指定しなければ、かな入力が継続されて通常のかな漢字変換が継続される。

ステップＳ４０３において部首入力が選択された場合、カーソル位置にあるかな文字に基づいて適切な部首コードの候補が表示される(ステップＳ４０４)。この場合、可能性の高い候補に先に変換しておき、間違っていた場合に、ユーザが特定キーを押すことで候補を表示するようにしてもよい。そして、部首候補選択４０５では、部首候補の中から適切な部首がオペレータによって選択され、それが受け付けられる（ステップＳ４０５）。

ステップＳ４０３において専門用語変換が指定された場合、入力済みのかな＋部首情報が専門用語に変換される(ステップＳ４０６)。変換結果が間違えていた場合、予め設定済みのキーを押すことにより、その他の変換候補が表示され、オペレータ（ユーザ）が選択できるようにする。この時、入力と辞書との類似度計算を行って、予め指定した上限数だけ類似度の高い候補を抽出する。なお、当該専門用語変換のための処理（ステップＳ４０６）の詳細は、図５を用いて説明する。

＜専門用語変換処理の詳細＞
図５は、ＩＭＥ（input method editor）等により入力されたかな部首混在文字列を入力として受け取り、専門用語候補を出力として返す処理の詳細を説明するためのフローチャートである。ここでも各ステップの処理の動作主体は、特に断らない限り、ＣＰＵ１３である。

まず、入力された、あるかな部首混在文字列について、部分文字列頻度辞書５１４のエントリーが枚挙される（ステップＳ５０１）。ここで、部分文字列頻度辞書５１４は、部分文字列と頻度と対応専門用語へのリンクを格納したものである（図１１のテーブル１１３０参照）。これは、図６の処理に従って、あらかじめ専門用語から作成されるものである。

次に、有効部分文字列選択処理が実行される（ステップＳ５０２）。つまり、辞書引きされた部分文字列間の位置的重なり具合により、無効な部分文字列が枝刈りされる。続いて、部分文字列の重み計算処理が実行される（ステップＳ５０３）。つまり、使用頻度データ５１１、使用日時データ５１２、入力文脈辞書５１３、及び入力結果一時記憶５２１と、部分文字列頻度辞書５１４の内容を組み合せて、部分文字列の重みが計算され、ステップＳ５０２の枝刈り処理で残った部分文字列の重みを特徴空間の重みとして、入力に類似する文字列が出力される。計算方法の詳細については、図１３以降を用いて説明する。

＜専門用語辞書の前処理＞
図６は、専門用語変換で用いる部分文字列辞書を生成するための処理（図５の用語辞書の前処理）を説明するためのフローチャートである。上述同様、各ステップの処理の動作主体は、特に断らない限り、ＣＰＵ１３である。

専門用語辞書６１１は、変換対象となる専門用語を格納するオリジナル辞書である。最初に、辞書エントリーの部首付与処理が実行される（ステップＳ６０１）。ここでは、専門用語の漢字の一部を、部首に置き換えものが生成される。例えば、“糖尿病壊疽”→“つちへんやまいだれ”、“陳旧性肺結核”→“ちん旧性肺結核”といった具合である。部首を表すために、ＪＩＳ９０等のＪＩＳ標準規格で定められたコードを用いてもよい。

次に、辞書エントリーの読み付与処理が実行される（ステップＳ６０２）。ここでは、専門用語の漢字を読みに置き換えたものが生成される。一部のみ置き換えることで、入力文字列が漢字であってもかなであっても、対応する専門用語候補を抽出することができる。

最後に、部分文字列頻度計算が実行される（ステップＳ６０３）。ここでは、各専門用語辞書エントリーの全ての部分文字列が生成され、その文字列を持つ専門用語の頻度がカウントされる。そして、その頻度情報が部分文字列頻度辞書６１４に格納される。
以上のようにして、図１１のテーブル１１３０に示されるような部分文字列頻度辞書（図１における１６２）が生成される。

＜診断書の入力手順に従った処理例＞
図７は診断書の入力を行う場合のＧＵＩの一例を示す図である。図７のＧＵＩ例は、入力対象の診断書を表示する表示部７０１と、診断書を見ながらオペレータが対応する項目を入力する入力部７０２と、を含んでいる。例示した診断書７０３には、氏名、生年月日、主病名、主病名の原因、合併症、診療期間、入院期間、傷病発生年月日、所見、実施した手術といった項目が含まれている。

入力作業は、例えば、“氏名”→“傷病名”→“入院期間”→“所見”のように、ある順序をもって行われる。従って、所見欄を入力する際に、文脈情報として、傷病名欄や合併症欄の情報を利用することが考えられる。実際の入力事例の中にも、読めない文字を入力する際に、診断書全体を見て判断するケースがある。

また、この例では、所見入力欄７０４は、診断書の所見欄に書かれている“昨日２５日糖尿病性”まで入力された状態となっている。所見欄の“糖尿病性”の文字はかなりきたないため読めない人もいると考えられるが、合併症欄にたまたまきれいな字で“糖尿病”と書いてあり、字形も似ているので、入力者の方で“糖尿病”だと判断し、入力を行うことは容易である。本実施形態においても、“入力文脈辞書”５１３と“入力結果一時記憶”５２１を用いることで、既に入力済みの欄の情報から、候補の絞込みを行うことができる。

吹き出し７０５に示されているのは、所見入力欄７０４部分を拡大表示したものである。”糖尿病性“の文字の隣に、“壊疽”の文字が汚くて読取れないが、かろうじて、“つちへん”らしきものと“やまいだれ”らしきものが読取れるので、かな入力モードで“つち”と入力したあと、部首変換キーを押す。提示された候補の中から“つちへん”を選択し、入力モードに戻る。部首を指定したあとは、専門用語変換のためのキーを押し、“つちへん”と“やまいだれ”が隣接している専門用語の“壊疽”を候補として提示している。

一般に、部首の形がわかっても、正確な名前がわからないケースも多いと考えられる。その場合、最低限部首の名前だけは覚えてもらうか、部首と名前の対応表を画面横に表示するなどの工夫が必要と考えられる。

なお、部首分類情報を用いることによっても部首の名前がわからない場合に対処できると考えられる。図１５は、部首分類情報を格納したテーブルの一例である。項目１５０１は、部首の大分類をあらわし、項目１５０２は、部首の細分類もしくは部首そのものを表す。例えば、レコード１５１１は、部首分類“たれ”の要素として“やまいだれ”が含まれることを示している。このテーブルを用いることにより、文字が汚く“垂れ”であることまでは判別できるが、“やまいだれ”なのか“まだれ”なのか“がんだれ”なのかわからない場合でも、条件指定することができる。

＜時系列で示した場合の変換処理＞
図８は、以上説明した処理を時系列順に並べて示した図である。系列８１１は、かな入力モードにおける時系列処理ステップを表す。また、系列８１２は、部首入力モードにおける時系列処理ステップを表す。さらに、系列８１３は、専門用語変換モードにおける時系列処理ステップを表す。

まず、オペレータによって、入力対象書類を見ながら、かな入力が実行される（ステップＳ８０１）。次に、文字が難しい、もしくは擦れやつぶれにより読みとりが困難な場合、オペレータの指示により、入力モードが部首入力モードに切替えられる（ステップＳ８０２）。

部首入力モードでは、カーソル位置のかな文字を基に、部首候補の仮確定がなされ、部首候補が出力される（ステップＳ８０３）。次に、提示された部首候補の中から候補となる部首がオペレータによって選択され（ステップＳ８０４）、かな入力モードに戻る（ステップＳ８０５）。そして、必要なかな、ないしは部首を入力した後、予め設定しておいた専門用語変換用のキーが押される（ステップＳ８０７）と、入力モードは専門用語変換モードに移行し、専門用語候補が提示され（ステップＳ８０８）。最後に、提示された専門用語の中から、適当な候補がオペレータによって選択されて変換が確定される（ステップＳ８０９）。

図９は、図８で示された以上の時系列変換処理を、画面遷移により例示したものである。

画面９０１は、かな入力モードで“とうにょうびょうせいつち”まで文字が入力され、カーソル範囲を“つち”に合わせて、部首入力モードに入った状態を示している。“つち”に対応する部首として、“つちへん”が表示される。

画面９０２は、“つちへん”が選択された後かな入力モードに戻り、“たれ”と入力されて部首入力モードに入った状態を示している。部首の候補として、“やまいだれ”、“がんだれ”及び“まだれ”が提示されている。この例では、オペレータは“やまいだれ”を選択する。画面９０３は、入力されたかなと部首を基に、専門用語変換を実行したときの状態が示されている。文字列９１１が”糖尿病“として仮確定し、部首文字列９１２の変換候補として、“壊疽”が提示されている。オペレータは、これが正しいと判断すればこれを選択することになる。

図１０は、入力対象のサンプルと、オペレータの入力、専門用語変換結果の一事例を示している。画像１００１は、診断書中に書かれている手書き文字のサンプルである。先頭の文字が、“陳”であるが、専門家以外の人にはそれが“陳”であるとは想像しづらい。オペレータの入力指定１０１０は３種類の指定パターンを示している。パターン１）１０１１では、不明な部分をワイルドカード“？”で指定している。パターン２）１０１２とパターン３）１０１３では、不明な部分をその構成要素のみ指定する。例えば、パターン２）１０１２では、“こざとへん”を指定している。パターン３）１０１３では、旁部分を“ひがし”と指定している。各入力に対して、尤もらしい候補として専門用語１０２１を返す。

以上のような入力パターンの指定を用意することで、文字が難しい、もしくは擦れやつぶれで読み取りが困難な場合にも、指定条件を緩めて、専門用語の変換を実現することができる。

＜部首指定の別の形態＞
図１６は、部首指定を、かな入力モードの中で実施する場合の処理を説明するためのフローチャートである。ここでは、あらかじめ決められた記号が頭にあるかないかで、部首用のかなと、通常のかなを区別するようにしている。

まず、かな漢字変換が起動される（ステップＳ１６０１）。次に、オペレータによってかな文字が入力される（ステップＳ１６０２）。あるいは、あらかじめ決められた記号が入力され、部首指定の開始点がマークされる。

かなおよび部首名が入力された後、部首指定記号を含むかな文字列を入力として、専門用語変換処理が実行される（ステップＳ１６０３）。ステップＳ１６０３の処理は、図５の専門用語変換フローと同じであるが、部分文字列辞書引き処理（ステップＳ５０１）を実施する前に、入力のうち部首指定範囲が内部ＩＤに変換される。例えば、部首を表す入力が“＠たれ”であった場合、一度内部ＩＤに変換された後辞書引き処理が行われる。これにより、“た”、“たれ”などの無駄な部分文字列の使用を避けることができる。

図１７は、図１６の処理に従って専門用語変換を行う場合の画面遷移例を示す図である。まず、かな入力モードで、通常のかなと部首を指定する記号が入力される（画面１７０１）。この例では、土偏を“＠つち”と指定している。

次に、続けて別の部首が入力される（画面１７０２）。ここでは、垂れを、“＠たれ”と指定されている。

最後に、画面１７０３で専門用語変換処理が実行され、専門用語“糖尿病壊疽”が取得される。

以上の処理により、難読漢字を含む文字列についても、パーツとの組合せ列を入力することにより、効率的な入力が可能となる。

＜専門用語変換候補の計算方法＞
図１１は、本発明における、専門用語変換を実現するための各辞書の構成を示す図である。テーブル１１００（専門用語辞書）は、専門用語と使用頻度を格納したテーブルであり、用語ＩＤ１１０１、用語名１１０２、読み１１０３、使用頻度１１０４から構成される。テーブル１１１０（用語使用日時辞書）は、用語変換確定日時を格納したテーブルであり、用語ＩＤ１１１１、使用日時１１１２から構成される。テーブル１１１０（用語使用日時辞書）は、用語ＩＤ１１１１によってテーブル１１００（専門用語辞書）と結び付けられている。

テーブル１１２０（用語別部分文字列構成辞書）は、元々の専門用語と部分文字列の対応情報を格納するテーブルである。テーブル１１２０は、文字列ＩＤ１１２１と、用語ＩＤ１１２２から構成される。これにより、各部分文字列を特徴素とする特徴ベクトルを構成することができる。

テーブル１１３０（部分文字列頻度辞書）は、部分文字列の用語頻度を格納する。このテーブルは、文字列ＩＤ１１３１、部分文字列１１３２、用語頻度１１３３から構成される。ここで、用語頻度とは、当該部分文字列を持つ用語が、テーブル１１００中に何個存在するか（文字列の固有性）を表すものである。この値が少ないほど、用語を絞り込むことができるため、有効度は高い。このテーブルは、用語辞書の前処理（図６参照）のステップＳ６０３において作成される。また、テーブル１１４０（部分文字列頻度辞書（つづき））は、専門用語の一部を部首で置き換えた文字列や、読みで置き換えた文字列に対して、図６のステップＳ６０３の処理を適用して作成される。

＜候補重みの計算処理＞
図１２は、本発明の実施形態において専門用語変換を実現するための入力文脈辞書の内容を示す図である。テーブル１２００（入力文脈辞書）は、既に入力済みの項目がある時に、現在入力中の項目の確信度を制御するための同時出現確率を格納している。

テーブル１２００は、１つ目の項目名１２０１と、１つ目の用語ＩＤ１２０２と、２つ目の項目名１２０３と、２つ目の用語ＩＤ１２０４と、同時出現確率１２０５と、を有している。例えば、エントリー１２１１では、傷病名欄にＩＤが２２２２２である用語が記載されていた場合に、所見欄にＩＤ３３３３３の項目が現われる確率を格納する。

テーブル１１００（専門用語辞書）を参照すると、ＩＤ２２２２２は“糖尿病２型”であり、ＩＤ３３３３３は“足褥瘡”であることが分かる。これらの用語間の依存関係は、入力対象とする専門分野の傾向が反映される。例えば、傷病名と合併症、傷病名と手術名などの関係は、医療分野の教科書を参照したり、医療機関の電子カルテデータから抽出することも可能である。また、診断書の例のように、傷病名や手術名、所見を入力する場合には、既に入力確定済みの項目との同時出現確率を反映させることで、候補用語の提示順位を制御することが可能である。

以下に示す式１に、候補用語の優先度を計算する例が示されている。まず、式１において。候補用語term、入力文字列inputとし、termおよびinputから生成される部分文字列をｓとする。また、ｓに対するテーブル１１３０の用語頻度１１３３の値をｄｆ（ｓ）とする。この時、入力文字列inputに対する候補用語termの優先度L(term|input)は、式１を用いて算出できる。なお、式１におけるP_col(term,termF)は、確定済み文字列termFの用語ＩＤが用語ＩＤ１２０２であり、候補用語termの用語ＩＤが用語ＩＤ１２０４であるエントリーに関して、両用語が同時に出現する場合の確率１２０５（同時出現確率）である。

式１は、各部分文字列を特徴素とするベクトルを考え、その出現用語頻度の逆数の対数を重みとする特徴空間での、正規化距離に、入力文脈情報辞書１２００による重み付けを行ったものになる。

以上の方法により、各部分文字列の重みと入力履歴を反映させた候補用語の優先付けを行うことができる。

＜部分文字列の有効性の判定＞
本発明の実施形態では、テーブル１１００（専門用語辞書）およびデーブル１１３０（部分文字列頻度辞書）を参照して、入力文字列から、部分文字列を特徴素とする特徴ベクトルを構成する（図５参照）。但し、全ての部分文字列をそのまま用いる場合は、ベクトルの次元数が爆発するため、計算量が増大する。また部分文字列同士は厳密には独立ではなく、依存関係があるため、間違った候補の部分文字列の重みを重複してカウントすることがある。

そこで、以上の２点の問題を避けるため、使用する部分文字列の次元削減を行うとよい。次元圧縮をする方法としては、学習データを基に事前に行う場合と、変換処理の実行時に行う場合がありうる。ここでは、変換処理実行時に次元削減を行うオンライン特徴選択について説明する。なお、事前に行う場合も基本的には同様の処理がなされる。

図１３は、入力文字列１３００“とうにょうびょうせい［つちへん］［やまいだれ］”に対し、図５の部分文字列辞書引き処理Ｓ５０１を実行施したときの状態を示している。ここでは、部分文字列１３１１は用語ＩＤ１３５７９４５から生成された文字列であることを表し、部分文字列１３１２は用語ＩＤ１００２３４５から生成された文字列であることを表す。これらの各部分文字列に対し、ＩＤが一致する部分文字列間の包含関係を調べる。そして、他方に完全に包含される部分文字列を枝刈りする。

図１３の例では、部分文字列１３１１、部分文字列１３２１、部分文字列１３２３は、部分文字列１３１６に包含される。また、部分文字列１３１７は部分文字列１３１３に包含される。また、部分文字列１３１４は部分文字列１３１８に包含され、部分文字列１３１９は部分文字列１３１５に包含される。

そして、以上の包含関係の判定により、不要なものを取り除いた語の文字列一覧を示すと図１４のようになる。最後に、残った部分文字列を用いて、上記式１の値を計算して変換候補リストを順序づけて提示する。

このように入力文字列に応じて有効な部分文字列特徴のみを選択することで、全ての部分文字列を特徴素とするベクトル演算の速度を向上させることができる。

＜候補優先度演算の省略＞
本発明の別の態様として、候補優先度演算を省略する場合について説明する。

一般に、ＩＭＥ（input method editor）を用いて候補を表示する場合、上限ｎを決めて、結果を表示することが多い。

従って、図５のステップＳ５０１の処理を実行し、部分文字列辞書１１３０を参照した段階で、用語頻度１１３３の値がｎ以下のものが存在すれば、当該ｎ個の候補をそのまま表示すればよい。

よって、式１を計算する代わりに、用語頻度１１３３の値が最小のものを見つけ、テーブル１１２０から対応する用語ＩＤを抽出すればよい。

これにより、入力文字列に対応する専門用語候補の提示速度を向上することができる。

＜使用頻度と入力履歴を組み合せた候補優先度の演算＞
本発明のさらに別の態様として、使用頻度と入力履歴を組み合わせた優先度計算方法について説明する。本演算は、テーブル１１００および１１１０を参照する。まず、図５の部分文字列辞書引き処理（ステップＳ５０１）を実行した後、候補にあがった各専門用語用語について、テーブル１１１０の使用日時１１１２の新しい順にソートする。その順位をOrder_time(term)とする。次に、専門用語辞書１１００の使用頻度１１０４の値の大きい順にソートする。その順位をOrder_freq(term)とする。以上を用いて、候補優先度を以下の式２を用いて演算する。

＜その他＞
本発明は、金融機関、生・損保等において、契約者が持ち込む文書データの入力を行う場面などで有効に適用することができる。

また、本発明により、利用頻度、日時を反映させて、入力文字列に該当すると思われる専門用語リストを順位づけて提示することができる。また、本発明により、素人にとって難解な漢字や、擦れ、つぶれ等によって読取りにくい文字を含む文章に対しても、効率的にデータ入力を行うことができる。

なお、本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

また、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ-ＲＷ、ＣＤ-Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はＣＰＵやＭＰＵ)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

本発明の実施形態は、日本語のかな漢字変換を例に説明されているが、本発明は日本語に限らず、ハングル語やタイ語等にも適用可能である。

本発明の実施形態による入力支援装置の概略構成を示す図である。難読用語を含む診断書の例を示す図である。難読漢字サンプルを示す図である。入力支援装置の変換処理の概要を説明するためのフローチャートである。専門用語変換処理の内容を説明するためのフローチャートである。専門用語辞書の前処理を説明するためのフローチャートである。入力システムのユーザインタフェース例を示す図である。入力システムの時系列処理を示すフローチャートである。本実施形態の処理における画面遷移例を示す図である。入力文字列の指定例を示す図である。部分文字列辞書の例を示す図である。入力文脈辞書の例を示す図である。入力文字列より生成した部分文字列群の包含関係の例を示す図である。有効部分文字列の選択例を示す図である。部首分類辞書の例を示す図である。変換処理の全体を示すフローチャートである。別の態様による処理における画面遷移例を示す図である。

符号の説明

１０・・・入力支援装置、１１・・・入力装置、１２・・・表示装置、１３・・・ＣＰＵ、１４・・・印刷装置、１５・・・ワークエリア、１６・・・情報保持手段、１９・・・通信ネットワーク

Claims

難読な又は判別困難な文字を含む対象用語の手入力作業を支援する用語入力支援装置であって、
前記対象用語は少なくとも第１の文字列と第２の文字列を有し、前記第１の文字列を入力されたかな情報から漢字変換して確定する確定手段と、
入力された前記第２の文字列の一部を構成する部首名と、前記確定された第１の文字列との組み合せから、前記第２の文字列の候補を特定し、前記対象用語の候補を提示する候補提示手段と、
入力された指示に従って前記候補の中から前記対象用語を決定する用語決定手段と、
を備えることを特徴とする用語入力支援装置。
前記候補提示手段は、前記第１の文字列と前記第２の文字列との組み合せにおいて連続する複数の文字で構成される部分文字列と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示することを特徴とする請求項１に記載の用語入力支援装置。
さらに、前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、を備え、
前記候補提示手段は、前記部分文字列の前記出現頻度を前記部分文字列辞書から取得し、前記出現頻度の逆数を基に特徴量を計算し、各部分文字列の特徴量と前記用語辞書に含まれる各用語の特徴量とを比較して前記類似度を計算することを特徴とする請求項２に記載の用語入力支援装置。
複数の文字で構成される用語の手入力作業を支援する用語入力支援装置であって、
前記用語は少なくとも第１の文字列と第２の文字列を有し、前記第１の文字列を入力された情報から確定する確定手段と、
入力された、前記第２の文字列を構成する一部の情報である一部構成情報と、前記確定された第１の文字列とから、前記第２の文字列の候補を提示する候補提示手段と、
前記第２の文字列の候補を確定し、前記用語を決定する用語決定手段と、
を備えることを特徴とする用語入力支援装置。
前記第１の文字列は第１の入力モードによって入力され、前記一部構成情報は前記第１の入力モードとは異なる第２の入力モードによって入力されることを特徴とする請求項４に記載の用語入力支援装置。
前記第１の文字列と前記第２の文字列とは、オペレータの指定によって区別されることを特徴とする請求項４に記載の用語入力支援装置。
前記候補提示手段は、前記第１の文字列と前記一部構成情報との組み合せにおいて連続する複数の文字で構成される部分文字列と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示することを特徴とする請求項４に記載の用語入力支援装置。
さらに、前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書と、を備え、
前記候補提示手段は、前記部分文字列の前記出現頻度を前記部分文字列辞書から取得し、前記出現頻度を用いて特徴量を計算し、各部分文字列の特徴量と前記用語辞書に含まれる各用語の特徴量とを比較して前記類似度を計算することを特徴とする請求項７に記載の用語入力支援装置。
前記候補提示手段は、前記部分文字列の特徴量を計算する際に、同一用語から派生する複数の部分文字列に関し、包含関係にある文字数の少ない部分文字列を前記特徴量の計算対象から除外することを特徴とする請求項８に記載の用語入力支援装置。
前記候補提示手段は、前記部分文字列を含む用語の数の最小値が予め設定された上限候補以下である場合には、当該部分文字列を含む用語をそのまま提示することを特徴とする請求項７に記載の用語入力支援装置。
さらに、前記用語辞書に含まれる用語同士が組み合される確率を意味する同時出現確率を格納する文脈辞書を備え、
前記候補提示手段は、既に入力して確定済の用語と前記候補との前記同時出現確率を考慮して前記類似度の高さを計算することを特徴とする請求項７に記載の用語入力支援装置。
コンピュータを用いて複数の文字で構成される用語の手入力作業を支援する用語入力支援方法であって、
前記コンピュータが、
前記用語は少なくとも第１の文字列と第２の文字列を有し、前記第１の文字列を入力された情報から確定する工程と、
入力された、前記第２の文字列を構成する一部の情報である一部構成情報と、前記確定された第１の文字列とから、前記第２の文字列の候補を提示する工程と、
前記第２の文字列の候補を確定し、前記用語を決定する工程と、
を実行することを特徴とする用語入力支援方法。
前記第１の文字列は第１の入力モードによって入力され、前記一部構成情報は前記第１の入力モードとは異なる第２の入力モードによって入力されることを特徴とする請求項１２に記載の用語入力支援方法。
前記第１の文字列と前記第２の文字列とは、オペレータの指定によって区別されることを特徴とする請求項１２に記載の用語入力支援方法。
前記候補を提示する工程で、前記コンピュータは、前記第１の文字列と前記一部構成情報との組み合せにおいて連続する複数の文字で構成される部分文字列と、複数の用語を格納する用語辞書の各用語との類似度を計算して、類似度の高い順に所定数の候補を提示することを特徴とする請求項１２に記載の用語入力支援方法。
前記候補を提示する工程で、前記コンピュータは、前記複数の用語の構成文字及びそれらの組み合せのそれぞれについて、前記用語辞書における出現頻度と、対応する元の用語の情報とを対応付けて格納する部分文字列辞書を用い、
前記部分文字列の前記出現頻度を前記部分文字列辞書から取得し、前記出現頻度を用いて特徴量を計算し、各部分文字列の特徴量と前記用語辞書に含まれる各用語の特徴量とを比較して前記類似度を計算することを特徴とする請求項１５に記載の用語入力支援方法。
前記候補を提示する工程で、前記コンピュータは、前記部分文字列の特徴量を計算する際に、同一用語から派生する複数の部分文字列に関し、包含関係にある文字数の少ない部分文字列を前記特徴量の計算対象から除外することを特徴とする請求項１６に記載の用語入力支援方法。
前記候補を提示する工程で、前記コンピュータは、前記部分文字列を含む用語の数の最小値が予め設定された上限候補以下である場合には、当該部分文字列を含む用語をそのまま提示することを特徴とする請求項１７に記載の用語入力支援方法。
前記候補を提示する工程で、コンピュータは、前記用語辞書に含まれる用語同士が組み合される確率を意味する同時出現確率を格納する文脈辞書を用い、
既に入力して確定済の用語と前記候補との前記同時出現確率を考慮して前記類似度の高さを計算することを特徴とする請求項１５に記載の用語入力支援方法。
コンピュータに請求項１２に記載の用語入力支援方法を実行させるためのプログラム。