JP5458004B2

JP5458004B2 - 登録情報特定装置、登録情報特定方法、及び、登録情報特定プログラム

Info

Publication number: JP5458004B2
Application number: JP2010291218A
Authority: JP
Inventors: 高志末永; 啓北内; 悠介並河
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 2010-12-27
Filing date: 2010-12-27
Publication date: 2014-04-02
Anticipated expiration: 2030-12-27
Also published as: JP2012138024A

Description

本発明は、登録情報特定装置、登録情報特定方法、及び、登録情報特定プログラムに関する。

例えば、特許文献１には、入力文字列を表記ゆらぎテーブルに照合して該入力文字列内のゆらぎ語句を検出し対応する標準語句に変換する表記ゆらぎ標準化手段と、前記標準語句に変換された前記入力文字列を標準化文字列として、傷病名マスタテーブルに照合し、該標準化文字列に含まれる傷病名および修飾語句をマスタ語句として検出すると共に該マスタ語句のコードを抽出する傷病名マスタ照合手段と、前記入力文字列、標準化文字列、マスタ語句として抽出された傷病名及びそのコードを提示する表示手段と、前記入力文字列又は前記標準化文字列をグラム分解した語句を、前記傷病名マスタテーブルに格納されたマスタ語句をグラム分解した語句が格納された近似傷病名テーブルと照合してマスタ語句毎に一致したグラム数を集計し、前記マスタ語句のグラム数に対する前記一致したグラム数の割合を適合率として用い、前記適合率に基づいて前記マスタ語句を表示させる近似傷病名検索手段を有することを特徴とするコード化システムが開示されている。

また、例えば、特許文献２には、所定の文字列からなる入力データを取得する取得部と、前記入力データが標準表記の語形と一致した場合、該標準表記に対応付けられた識別コードに前記入力データを変換し、前記入力データが前記標準表記の語形と不一致であった場合、前記標準表記の替わりに該標準表記を示す語句として慣用されている基本語と前記入力データの語形が一致するか否かを判断し、前記入力データが前記基本語の語形と一致するとき、前記入力データを、該基本語が示す前記標準表記に対応付けられた前記識別コードに変換するコード変換部とを備えることを特徴とするコード変換装置が開示されている。

特許第４０３２７７５号公報特開２００４−０４６７７７号公報

上記各特許文献の技術では、文字列に対応する、標準語句、マスタ語句等の登録情報が特定されるが、例えば、文字列の語句と登録情報の語句との順番が異なる場合や、文字列の語句が登録情報の語句と比べて少ない場合に、登録情報をうまく特定出来ない場合があった。このため、登録情報の特定の精度が良くなかった。

本発明は、上記問題点に鑑みてなされたものであり、入力された文字列に対応する登録情報を精度良く特定出来る登録情報特定装置、登録情報特定方法、及び、登録情報特定プログラムを提供することを目的とする。

上記目的を達成するため、本発明の第１の観点に係る登録情報特定装置は、
予め登録されている複数の登録情報の中から、複数の項目のうちの所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する第１分解手段と、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記第１分解手段が分解した前記複数の語句を全て含む語句グループに対応する１以上の登録情報を特定する第１特定手段と、
前記複数の項目のうちの前記所定の項目以外の項目に入力された文字列を、前記記憶部に記録されている語句を参照して、１以上の語句に分解する第２分解手段と、
前記第１特定手段が特定した前記１以上の登録情報のうち、対応する前記語句グループに含まれる語句のうちの前記第１分解手段が分解した前記複数の語句以外の１以上の語句のうちの少なくとも１つが前記第２分解手段によって分解された前記１以上の語句のうちの少なくとも１つと一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する第２特定手段と、
を備える。

また、好ましくは、例えば、登録情報特定装置は、
語句とこの語句の種別とが対応付けられて記録されたデータテーブルを参照し、前記第１特定手段が特定した前記１以上の登録情報に対応する前記語句グループに含まれる語句のうちの前記第１分解手段が分解した前記複数の語句以外の語句に対応する種別を特定する種別特定手段と、
種別と前記複数の項目のうちの少なくとも一部の項目とが対応付けて記録されたデータテーブルを参照し、前記種別特定手段が特定した前記種別に対応する前記項目を特定する項目特定手段と、をさらに備え、
前記第２特定手段が行う処理における前記第２分解手段が分解した１以上の語句は、前記項目特定手段が特定した前記項目に入力された文字列を分解した１以上の語句である。

また、好ましくは、例えば、登録情報特定装置は、前記登録情報は、医療で用いられる名称である。

また、好ましくは、例えば、前記第１分解手段及び／又は前記第２分解手段によって行われる分解は、表記を統一する補正を含む。

また、好ましくは、例えば、登録情報特定装置は、
前記第２特定手段が特定した登録情報を識別情報に変換する変換手段をさらに備える。

また、好ましくは、例えば、前記第２特定手段は、前記複数の語句以外の語句のうちの予め設定されている必須の語句が前記１以上の語句の少なくとも一部と一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する。

また、上記目的を達成するため、本発明の第２の観点に係る登録情報特定方法は、
予め登録されている複数の登録情報の中から、複数の項目のうちの所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置が行う登録情報特定方法であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する第１分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記第１分解ステップで分解した前記複数の語句を全て含む語句グループに対応する１以上の登録情報を特定する第１特定ステップと、
前記複数の項目のうちの前記所定の項目以外の項目に入力された文字列を、前記記憶部に記録されている語句を参照して、１以上の語句に分解する第２分解ステップと、
前記第１特定ステップで特定した前記１以上の登録情報のうち、対応する前記語句グループに含まれる語句のうちの前記第１分解ステップで分解した前記複数の語句以外の１以上の語句のうちの少なくとも１つが前記第２分解ステップによって分解された前記１以上の語句のうちの少なくとも１つと一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する第２特定ステップと、
を備える。

また、上記目的を達成するため、本発明の第３の観点に係る登録情報特定プログラムは、
予め登録されている複数の登録情報の中から、複数の項目のうちの所定の項目に入力された文字列に対応する登録情報を特定するためのプログラムであって、コンピュータに、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する第１分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記第１分解ステップで分解した前記複数の語句を全て含む語句グループに対応する１以上の登録情報を特定する第１特定ステップと、
前記複数の項目のうちの前記所定の項目以外の項目に入力された文字列を、前記記憶部に記録されている語句を参照して、１以上の語句に分解する第２分解ステップと、
前記第１特定ステップで特定した前記１以上の登録情報のうち、対応する前記語句グループに含まれる語句のうちの前記第１分解ステップで分解した前記複数の語句以外の１以上の語句のうちの少なくとも１つが前記第２分解ステップによって分解された前記１以上の語句のうちの少なくとも１つと一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する第２特定ステップと、
を行わせる。

また、上記目的を達成するため、本発明の第４の観点に係る登録情報特定装置は、
予め登録されている複数の登録情報の中から、所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する分解手段と、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記分解手段が分解した前記複数の語句を順不同で全て含む語句グループに対応する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する特定手段と、
を備える。

また、上記目的を達成するため、本発明の第５の観点に係る登録情報特定方法は、
予め登録されている複数の登録情報の中から、所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置が行う登録情報特定方法であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記分解ステップで分解した前記複数の語句を順不同で全て含む語句グループに対応する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する特定ステップと、
を備える。

上記目的を達成するため、本発明の第６の観点に係る登録情報特定プログラムは、
予め登録されている複数の登録情報の中から、所定の項目に入力された文字列に対応する登録情報を特定するためのプログラムであって、コンピュータに、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記分解ステップで分解した前記複数の語句を順不同で全て含む語句グループに対応する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する特定ステップと、
を行わせる。

本発明によれば、入力された文字列に対応する登録情報を精度良く特定出来る。

登録情報特定装置の構成を示すブロック図である。登録情報特定装置の制御部が行うコード化処理のフローチャートである。制御部が出力部のディスプレイに表示する入力画面の一例を示す図である。制御部が参照する不要語辞書の内容の一例を示す図である。制御部が参照する表記揺れ辞書の内容の一例を示す図である。制御部が参照する語句辞書の内容の一例を示す図である。制御部が参照する同義語辞書の内容の一例を示す図である。制御部が参照するマスタ辞書の内容の一例を示す図である。制御部が参照する補完用テーブルの内容の一例を示す図である。

本発明に係る一実施形態について図面を参照して説明する。なお、本発明は下記で説明する実施形態（図面の内容も含む。）によって限定されるものではない。下記の実施形態に変更（構成要素の削除も含む）を加えることができるのはもちろんである。また、以下の説明では、本発明の理解を容易にするために、公知の技術的事項の説明を適宜省略する。本発明において、文字は、括弧、ハイフン等の約物も含む。

本発明の一実施形態に係る登録情報特定装置１は、図１のように、制御部１１、記憶部１２、入力部１３、出力部１４を備えるコンピュータである。

制御部１１は、後述のコード化処理を行う。制御部１１は、制御部１１が行う処理を実際に行うＣＰＵ（Central Processing Unit）、ＣＰＵのメインメモリとして機能するＲＡＭ（Random Access Memory）等によって構成される。制御部１１は、その少なくとも一部がＡＳＩＣ（Application Specific Integrated Circuit）等によって構成されてもよい。

記憶部１２は、ハードディスク、フラッシュメモリ等の不揮発性の記憶装置によって構成される。記憶部１２は、制御部１１のＣＰＵを動作させるプログラム、制御部１１に参照される各種辞書やデータテーブル、制御部１１が使用するデータ等を記憶する。記憶部１２が記憶する辞書、データテーブル等の詳細は後述する。なお、記憶部１２の少なくとも一部は、登録情報特定装置１と通信可能な外部の装置（例えば、サーバ）の記憶部によって構成されてもよい。つまり、前記の辞書、データテーブル等の少なくとも一部は、外部の装置内の記憶部に記録されていてもよい。この場合、制御部１１は、図示しない通信部を介して、適宜、外部の装置と通信して、辞書、データテーブル等を参照する。なお、図における辞書（詳細は後述する。）の内容は、本実施形態の理解を容易にするために、単純化されたものとして記載されているが、実際には、多数の語句が辞書に記録されている。

入力部１３は、キーボード等から構成され、ユーザからの入力操作（特に、文字入力）を受け付ける。入力部１３は、受け付けた入力操作に応じた操作信号を制御部１１に供給する。登録情報特定装置１は、入力部１３を備えず、外部の入力部に接続されてもよい。

出力部１４は、ディスプレイ等から構成され、制御部１１の処理結果等を出力する。登録情報特定装置１は、出力部１４を備えず、外部の出力部に接続されてもよい。

登録情報特定装置１は、例えば、保険会社における保険の支払査定業務に用いられる。登録情報特定装置１には、顧客からの保険請求の際に提出された医師の診断書の記載内容（後述の各項目）が、入力部１４から文字入力される（データエントリ）。登録情報特定装置１の制御部１１は、文字入力される文字列を受け付け、入力された文字列を、保険会社の保険支払いの査定に使用される、予め保険会社に登録されている医療用語（本実施形態における登録情報）に当てはめる処理を行う（本実施形態では、このあてはめをコード化という。）。本実施形態では、特に、手術名として入力された文字列（以下、入力文字列という。）を、統一された手術名称（以下、標準名称という。）に当てはめる場合について説明する。このようなコード化をする理由は、同じ手術であっても、医師によって、診断書における手術名の表記が異なる場合があるからである。つまり、同じ手術を示すものであるのに、入力文字列が、診断書によって異なる場合があるからである。このため、後の査定等の業務において、同じ査定結果になるべきなのに、診断書の記載内容によって査定結果が異なってしまう等の不都合を解消するため、コード化が行われる。

例えば、内視鏡を使用した手術では、手術名として、単に「内視鏡・・・」と入力されたり、「内視鏡下・・・」又は「内視鏡的・・・」と入力されたりする（表記揺れ）。これらは、全て内視鏡を使用した手術であるという点で共通する。

また、例えば、「・・・切除術」が「・・・・摘除術」と入力されることもある（同義語の使用）。

また、例えば、同じ手術であるのに、「大腸ポリープ内視鏡切除術」や、「内視鏡大腸ポリープ切除術」等、語句の順番が入れ違う場合がある。

また、例えば、手術名が、内視鏡を用いた大腸ポリープの切除術であるのに、「内視鏡ポリープ切除術」としか入力されない等、一部の語句（例えば、大腸等の部位）が足りない場合がある。この場合、手術名において、どの部位を切除したか不明になってしまうので、この手術名についてコード化することは困難であるが、例えば、他の項目（ここでは、項目１の傷病名（大腸ポリープ））を参照すれば、この診断書における手術名が把握される場合もある（傷病名から部位である大腸が補完される）。

上記のように、入力文字列が異なる態様は様々であり、特に、前記の語句の順番が異なる、又は、語句が足りないと、従来では、コード化が出来ず、コード化の精度（入力文字列に対応する標準名称の特定の精度）が悪かった。本実施形態では、以下のコード化処理によって、標記揺れや同義語による不都合の他、前記の語句の順番が異なる、語句が足りないといった問題を解消し、精度良くコード化ができる。

図２等を参照して、制御部１１が行うコード化処理を説明する。前記データエントリにおいて、作業者が、入力部１３を操作して、医師の診断書の記載内容を文字入力する作業の開始を指示すると、制御部１１は、診断書のコード化処理を開始する。

まず、制御部１１は、図３に示すような入力画面を出力部１４のディスプレイに表示し、文字列の入力を受け付ける（ステップＳ１）。

作業者は、入力部１３を操作し、図３に示すように、診断書に記載されている、傷病名（ここでは、大腸ポリープ）を項目１に、手術名（ここでは、内視鏡下ポリープ摘除術Ｋ−（７１２−２））を項目２に、合併症名（ここでは、空欄）を項目３に、ガンの進行度を示すガンの種類（ここではグループ１）を項目４に、手術の種類（ここでは、内視鏡）を項目５に、文字入力する。これによって、診断書の記載内容が、文字入力される。なお、項目３等、該当する入力エントリが無い場合には、この項目は空欄にするものとする。そして、作業者は、エントリ終了を、入力部１３を操作して指示する。なお、入力項目は、診断書の記載内容を入力するためのものであればよく、これらに限られず、その仕様によって適宜変更される。例えば、項目として、ガンと思われる組織片の検査結果を入力する項目や、選択形式でチェックされる項目があってもよい。

入力部１３は、このような一連の操作に応じた操作信号を制御部１１に供給し、制御部１１は、このような操作信号に基づいて、各項目に入力された文字列（以下、入力文字列という。）を取得するとともに、エントリ終了の指示があったことを判別する。

次に、制御部１１は、エントリ終了の指示があると、ステップＳ２以降の処理を行う。ここでは、図３に示す内容が入力されたものとして、ステップＳ２以降の処理を説明する。

制御部１１は、入力文字列に含まれる不要語を除去する（ステップＳ２）。不要語は、今回のコード化において、不要な文字、又は、不要な文字列である。本実施形態では、例えば、項目２に入力された「Ｋ−（７１２−２）」が不要語である。この文字列は、手術名の標準化に準拠した文字列であるが、今回の処理においては不要であるので、不要語として削除される。

本実施形態では、記憶部１２は、不要語辞書を記憶し、制御部１１は、この不要語辞書を参照して、不要語を削除する。不要語辞書は、例えば、図４のように、不要語の一覧のデータである。

制御部１１は、不要語辞書を参照して、辞書中の各不要語と入力文字列を照合し（文字の多い不要語から照合していくと良い。）、入力文字列の中から、辞書中の不要語と同じ語（「Ｋ−（７１２−２）」）を抽出し、抽出した語を入力文字列から削除する。このようにして、入力文字列から不要語が削除される。ここでは、不要語を削除した後の文字列は、「内視鏡下ポリープ摘除術」である。

次に制御部１１は、不要語を削除した後の文字列について、表記揺れを統一する（ステップＳ３）。ここでは、表記揺れがある言葉が同じ言葉になるように、文字列が補正される。例えば、「内視鏡的」及び「内視鏡下」は、「内視鏡」に統一される。

記憶部１２には、表記揺れ辞書が記録されており、制御部１１は、表記揺れ辞書を参照して、表記揺れを統一する。表記揺れ辞書は、図５のように、表記揺れ語句（表記揺れのある語句）と、統一語句（統一後の語句）と、が対応付けられて複数記録されたデータテーブルである。

制御部１１は、表記揺れ辞書中の表記揺れ語句それぞれと、不要語を削除した後の文字列とを照合し、この文字列の中から、表記揺れ語句と同じ語句（「内視鏡下」）を検出し、検出した語句を、この辞書で、この表記揺れ語句に対応する統一語句（「内視鏡」）に置き換える。ここでは、この表記揺れの統一後の文字列は、「内視鏡ポリープ摘除術」である。制御部１１は、文字の多い表記揺れ語句から照合していき、置き換えを行うとよい。そして、置き換えた文字列については、次からの照合の対象から除外するとよい。

次に制御部１１は、表記揺れの統一後の文字列を、予め登録されている複数の語句に分割する（ステップＳ４）。記憶部１２には、語句辞書が記録されており、制御部１１は、語句辞書を参照して、この文字列を複数の語句に分割する。語句辞書は、図６のように、語句の一覧のデータである。この語句の一覧は、同義語辞書の同義語及び統一語句を全て含み、かつ、標記揺れ辞書中の統一語句の少なくとも一部を含むものである。

制御部１１は、語句辞書中の各語句と、表記揺れの統一後の文字列とを照合し、この文字列の中から、語句辞書中の各語句と同じ語句を抽出し（「内視鏡」、「ポリープ」、及び、「摘除術」）、この文字列を分割していく。ここでは、この分割によって、この文字列は余りなく分割される。つまり、分割された語句を並べれば統一後の文字列になる。しかし、この文字列が、語句辞書中の各語句に該当しない文字列を有する場合（つまり、未知の文字列（語句）がこの文字列に含まれる場合）、この統一後の文字列を分割しても、余りの文字列が発生することになる。例えば、「でない」等の否定語が統一後の文字列にあり、さらに、この語句が語句辞書中にない場合には、分割後に、「でない」という余りの文字列が発生することになる。なお、制御部１１は、文字の多い語句から照合していき、分割を行うとよい。そして、分割した文字列については、次からの照合の対象から除外するとよい。

制御部１１は、ステップＳ５の分割後、前記の余りがあるかを判別し（ステップＳ５）、余りがある場合（ステップＳ５；ＹＥＳ）、前記文字列には、語句辞書の各語句に該当しない未知の文字列がありコード化が出来ないので、ステップＳ１３の処理を行う。

制御部１１は、余りがないと判別した場合（ステップＳ５；ＮＯ）、前記文字列には語句辞書の各語句に該当しない未知の語句がないので、コード化出来る可能性があり、ステップＳ６の処理を行う。

制御部１１は、ステップＳ６において、分割後の各語句について、同義語を統一する。

記憶部１２には、同義語辞書が記録されており、制御部１１は、同義語辞書を参照して、同義語を統一する。表記揺れ辞書は、図７のように、同義語と、統一語句（統一後の語句）と、が対応付けられて複数記録されたデータテーブルである。図７では、「ガン」は、統一語句として、「悪性」及び「腫瘍」の二語に統一される。このように、同義語は、統一語句として、二語以上の語句に統一されてもよい。

制御部１１は、分割後の各語句のうち、同義語辞書中の同義語に該当する語句（「摘除術」）を検出し、この同義語に対応する統一語句（「切除術」）に置き換える。この時点における各語句は、「内視鏡」、「ポリープ」「切除術」である。制御部１１は、置き換えた語句については、次からの置き換えの対象から除外するとよい。

本実施形態では、上記の処理によって、制御部１１は、所定の項目（項目３）に、手術名として入力された文字列を、記憶部１２に記録されている語句（不要語辞書、表記揺れ辞書、同義語辞書、語句辞書）を参照して、複数の語句に分解する。ここで、分解とは、文字列について、表記を統一するための補正（ステップＳ２の不要語の削除、ステップＳ３の表記揺れの統一、及び、ステップＳ６の同義語の統一）と分割（ステップＳ４の分割）とをすることを含む。つまり、入力文字列を分解するといった場合、分解された複数の語句は、全体で、入力文字列の内容を全て表すものであればよく、複数の語句の文字列全体が、入力文字列と全て一致している必要はない。なお、分割の前に同義語の統一を行うと、分割対象の所定の語句に含まれる単語が先に同義語に変換されて、その後の分割がうまくいかない場合があるので、分割を行った後、同義語を統一した方がよい。

制御部１１は、ステップＳ６の後、分解された複数の語句と、標準名称の特定に必要な語句とを照合する（ステップＳ７）。記憶部１２には、マスタ辞書が記録されており、制御部１１は、マスタ辞書を参照して、照合を行う。マスタ辞書は、図８のように、標準名称と、複数の語句からなる語句グループとが対応付けて複数記録されたデータテーブルである。複数の語句は、主名称、疾患等の種別毎に記録されている。

制御部１１は、この照合によって、マスタ辞書中の、分解された複数の語句（「内視鏡」、「ポリープ」、及び、「切除術」）と同じ語句を順不同で全て含む語句グループに対応する標準名称をマスタ辞書中から特定する。今回の場合には、「内視鏡大腸ポリープ切除術」、及び、「内視鏡小腸ポリープ切除術」が、「内視鏡」、「ポリープ」、及び、「切除術」を全て含むので、これらが特定される。また、分解された複数の語句を全て含む語句グループに対応する標準名称がマスタ辞書中にない場合には、分解された複数の語句の組み合わせが未知の組み合わせである等、入力文字列が未知の名称を特定するものである可能性があるので、制御部１１によって、標準名称は特定されないことになる。

次に、制御部１１は、前記標準名称が特定できたかを判別し（ステップＳ８）、標準名称が特定できていないと判別した場合（ステップＳ８；ＮＯ）には、標準名称が特定できず、コード化が行えないので、ステップＳ１３の処理を行う。

制御部１１は、ステップＳ８において、標準名称が特定できたと判別した場合（ステップＳ８；ＹＥＳ）には、分解された複数の語句と、特定された標準名称に対応する語句グループの複数の語句と、が完全一致するかを判別する（ステップＳ９）。

完全一致は、分解された複数の語句と、特定された標準名称に対応する語句グループの複数の語句とが全て一致する場合の他、分解された複数の語句と、「その他」以外の種別に属する複数の語句とが全て一致する場合も含む。「その他」は、分解された語句と、一致しても一致しなくても標準名称の特定に影響しない語句であり、例えば、「左」や「右」の語句が該当する。この種別は、付加的な語句の種別であり、他の種別は、標準名称の特定に必須の語句の種別になる。つまり、完全一致とは、少なくとも、分解された複数の語句と、標準名称の特定に必須の種別の語句（予め設定されている複数の必須の語句）と、が全て一致することをいう。必須の種別の語句は、例えば、標準名称を複数の語句に分割したものである。つまり、語句グループは、例えば、標準名称を複数の語句を含むグループである。

例えば、分解された複数の語句が、「大腸」、「内視鏡」、「ポリープ」、「切除術」であった場合（「左」又は「右」を含んでも良い。）、ステップＳ７においては、図８のマスタ辞書中の「内視鏡大腸ポリープ切除術」が特定され、両者は完全一致する。このように完全一致が生じる場合、制御部１１は、ステップＳ９において、分解された複数の語句と、特定された標準名称に対応する複数の語句と、が完全一致すると判別する（ステップＳ９；ＹＥＳ）。このような場合には、その入力文字列が、その標準名称を表すことになるので、診断書によって表される標準名称が決定され、制御部１１は、ステップＳ１２の処理を行う。

ここでは、分解された複数の語句が、「内視鏡」、「ポリープ」、「切除術」であり、この複数の語句は、前記で特定した標準名称である、「内視鏡大腸ポリープ切除術」、「内視鏡小腸ポリープ切除術」に対応するいずれの語句グループの複数の語句とも完全一致しない。このように完全一致が生じない場合、制御部１１は、ステップＳ９において、完全一致しないと判別し（ステップＳ９；ＮＯ）、ステップＳ１０の処理を行う。

ここで、項目２以外の他の項目それぞれについて、項目に入力された文字列は、上記と同様の処理によって（但し、参照される辞書の内容は項目毎に異なっても良い。）、適宜、１以上の語句に分解されているものとする。なお、ガンの種類においては、例えば、グループ１、グループ２、又は、グループ３という語句については良性、グループ４、又は、グループ５という語句については悪性として、同義語が統一されるものとする。このように、ガンの種類においては、最終的に良性又は悪性に分解される。なお、１つの語句に分解するとは、表記を統一する補正のみを行う、または、補正及び分割しないでそのまま語句とすることの両者を含むものとする。

制御部１１は、ステップＳ１０において、項目２以外の他の項目に入力された文字列を分解した１以上の語句を参照し、前記で特定した各標準名称に対応する語句グループの複数の語句（ここでは、必須の種別の語句）のうち、分解された複数の語句とは一致しない１以上の語句（つまり、足りない１以上の語句）を、補完する。制御部１１は、他の全ての項目における分解された１以上の語句を参照してもよいが、処理の効率化のため、下記で特定される項目における１以上の語句のみを参照する。

制御部１１は、他の項目のうちのどの項目の語句を参照するかは、補完用テーブルを参照して特定する。補完用テーブルは、図９のように、語句辞書に含まれる語句の種別と、参照する文字列の項目を特定する参照項目と、が対応付けて記録されたデータテーブルである。

制御部１１は、マスタ辞書を参照して、前記で特定した各標準名称について、足りない語句の種別を特定する。そして、制御部１１は、補完用テーブルを参照して、特定した語句の種別に対応する参照項目を特定する。参照項目は、足りない語句の種別及び数に応じて１以上特定される。参照項目は、足りない語句の種別に応じて決まるものであり、その種別の語句（足りない語句）は、その種別の参照項目における１以上の語句に含まれる可能性が高い（例えば、術式なら手術の種類）。

制御部１１は、一の標準名称、かつ、この標準名称についての一の足りない語句の種別について、この足りない語句と、参照項目に入力された文字列を分解した１以上の語句と、を比較し、前記１以上の語句に、足りない語句が含まれる場合、この語句を前記で分解された複数の語句に補完する。つまり、制御部１１は、足りない語句を前記で分解された語句に加える。制御部１１は、この補完を全ての足りない語句について行う。そして、制御部１１は、この全ての足りない語句について行う補完を前記で特定した標準名称全てについて行う。

制御部１１は、前記の補完を全ての標準名称について行うと、足りない語句を全て補完できた標準名称があるかを判別する（ステップＳ１１）。

ステップＳ１０及びステップＳ１１の具体例を説明する。

制御部１１は、例えば、まず、前記で特定された標準名称のうち「内視鏡小腸ポリープ切除術」について、前記の補完を行う。この場合、制御部１１は、足りない語句が「小腸」であるので、マスタ辞書を参照して、足りない語句の種別として「部位」を特定する。

次に、制御部１１は、補完用テーブルを参照して、足りない語句の種別に基づいて、これらに対応する参照項目である、項目１及び３を特定する。さらに、制御部１１は、項目１及び項目３の語句の中に、足りない語句である「小腸」があるかを判別し、「小腸」があれば、この「小腸」を、前記で分解した複数の語句である、「内視鏡」、「ポリープ」、及び、「切除術」に加える。

制御部１１は、同様の処理を、「内視鏡大腸ポリープ切除術」についても行う。さらに、制御部１１は、この補完を各標準名称について行うと、足りない語句を全て補完できた標準名称があるかを判別する。

ここでは、「内視鏡小腸ポリープ切除術」については、全て補完できず、「内視鏡大腸ポリープ切除術」については、全て補完できる。

制御部１１は、ステップＳ１１において、足りない語句を全て補完できた標準名称がないと判別すると（ステップＳ１１；ＮＯ）、標準名称が特定できず、コード化が行えないので、ステップＳ１３の処理を行う。

制御部１１は、ステップＳ１１において、足りない語句を全て補完できた標準名称があると判別すると（ステップＳ１１；ＹＥＳ）、ステップＳ１２の処理を行う。ここでは、「内視鏡大腸ポリープ切除術」について足りない語句を全て補完できたため、制御部１１は、全て補完できた標準名称があると判別する。

制御部１１は、ステップＳ１２において、前記で完全一致した標準名称又は前記で全て補完できた標準名称を、入力文字列に対応する標準名称として出力し、本処理を終了する。この出力は、出力部１４のディスプレイに標準名称を表示して作業者に標準名称を報知することの他、制御部１３が標準名称を他の処理に使用することをも含む。他の処理は、例えば、制御部１１が、標準名称と、保険査定に使用される英数字の文字列等からなる識別情報と、を対応付けて複数記録された識別情報データテーブル（記憶部１２に記録されているものとする）を参照し、前記で完全一致した標準名称又は前記で全て補完できた標準名称と同じ標準名称に対応する識別情報を取得し、取得した識別情報を出力する処理である。このような処理によって、入力文字列に対応する登録情報が特定されたことにもなる。

なお、前記の出力では、例えば、前記の良性又は悪性等の保険査定の結果に影響する条件や、傷病名等を、手術名の標準名称とともに出力してもよい。傷病名等も、前記と同様の処理によって、傷病名の標準名称が特定され、出力される。また、条件も、前記と同様の処理によって、良性又は悪性が特定され、出力される。なお、条件は、傷病名等から特定されてもよい（例えば、悪性（又は良性）との文字が傷病名に含まれれば、条件は傷病名に含まれる悪性（又は良性）になる。）。なお、前記識別情報は、同じ手術であっても、条件によって異なるため、識別情報データテーブルでは、同じ手術の標準名称であっても条件毎に異なる識別情報が記録される。

制御部１１は、ステップＳ１３において、コード化が出来ない旨の報知を出力部１４を介して行い、処理を終了する。この場合には、コード化が人による手作業で行われる。このとき、制御部１１は、ステップＳ８において特定した標準名称を、コード化する名称の候補として、出力部１４を介して出力（ディスプレイに表示）してもよい。これは、手作業でのコード化への助けになる。

本実施形態では、登録情報特定装置１は、上記の処理を行うことによって、予め登録されている複数の登録情報（手術名の標準名称）の中から、複数の項目のうちの所定の項目（項目２）に入力された文字列に対応する登録情報を特定する。

また、本実施形態では、制御部１１は、上記の処理を行うことによって、所定の項目に入力された文字列を、記憶部１２に記録されている語句（不要語辞書、表記揺れ辞書、語句辞書、同義語辞書）を参照して、複数の語句に分解する第１分解手段と、複数の語句からなる語句グループと登録情報とが対応付けられて複数記録されたデータテーブル（マスタ辞書）を参照し、第１分解手段が分解した複数の語句を全て含む語句グループに対応する１以上の登録情報を特定する第１特定手段と、複数の項目のうちの所定の項目以外の項目に入力された文字列を、記憶部１２に記録されている語句（不要語辞書、表記揺れ辞書、語句辞書、同義語辞書のうちの少なくとも１つ）を参照して、１以上の語句に分解する第２分解手段と、第１特定手段が特定した１以上の登録情報のうち、対応する語句グループに含まれる語句のうちの第１分解手段が分解した複数の語句以外の１以上の語句の一部（ここでは、１以上の足りない語句であって、その他の種別以外の種別の語句である。前記の複数の語句以外の１以上の語句の全てであってもよい。）が第２分解手段によって分解された１以上の語句の少なくとも一部の語句と一致する登録情報を、所定の項目に入力された文字列に対応する登録情報として特定する第２特定手段と、として動作する。

これによって、所定の項目に入力された文字列を分解した語句と、登録情報の語句と、を比較した場合に、分解した語句が、登録情報の語句に比べて足りない場合でも、第２分解手段と第２特定手段とによって、他の項目を参照して登録情報が特定されるので、所定の項目に入力された文字列に対応する登録情報を特定することができる。このため、入力された文字列に対応する登録情報を精度良く特定出来る。つまり、コード化の精度が良い。また、第一特定手段が、第１分解手段が分解した複数の語句を順不同で全て含む語句グループに対応する１以上の登録情報を特定する場合、語句の順序が異なる登録情報についても特定できる。このため、入力された文字列に対応する登録情報を精度良く特定出来る。

また、本実施形態では、制御部１１は、上記の処理を行うことによって、語句とこの語句の種別とが対応付けられて複数記録されたデータテーブル（マスタ辞書）を参照し、前記の複数の語句以外の１以上の語句（ここでは、１以上の足りない語句であって、その他の種別以外の種別の語句）にそれぞれ対応する１以上の種別を特定する種別特定手段と、種別と前記複数の項目のうちの少なくとも一部の項目とが対応付けて複数記録されたデータテーブル（補完用テーブル）を参照し、前記種別特定手段が特定した前記１以上の種別にそれぞれ対応する１以上の前記項目を特定する項目特定手段と、として動作し、前記第２特定手段が行う処理における前記第２分解手段が分解した１以上の語句は、前記項目特定手段が特定した前記１以上の項目それぞれに入力された文字列を分解した１以上の語句である。これによって、参照される項目が、特定の項目になり、処理の軽減化が実現される。また、本実施形態では、補完用テーブルを使用することによって、参照される項目が変更されるときには、補完用テーブルの内容を変更するだけでよいので、装置の仕様の変更が容易である。特に、文字列の入力項目は、保険会社によって異なる場合も多く、この場合であっても、この登録情報特定装置１を使用する保険会社に併せて補完用テーブルの内容を変更するのみで、仕様の変更が可能なっている。

また、本実施形態では、登録情報は、医療で用いられる名称である。手術名等の医療で用いられる名称（医療用語）は、一般に単語の順序が変わったりしても、意味内容が変更されることはない。このため、本実施形態のように、足りない単語の補完が行われても不都合が生じず精度良く登録情報を特定でき、語句の順序が異なる文字列であっても正確な登録情報が特定される。

本実施形態では、制御部１１が上記の処理を行うことによって、前記第１分解手段及び／又は前記第２分解手段によって行われる分解は、表記を統一する補正を含んでいる。これによって、登録情報の特定の精度が良くなっている。

本実施形態では、制御部１１は、上記の処理を行うことによって、前記第２特定手段が特定した登録情報を識別情報に変換する変換手段として機能する。これによって、後の保険査定に使用される識別情報が特定される。

本実施形態では、制御部１１が上記の処理を行うことによって、前記第２特定手段は、前記複数の語句以外の語句のうちの予め設定された１以上の必須の語句（その他の種別以外の種別の語句）の全てが前記１以上の語句の少なくとも一部と一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する。これによって、登録情報の特定の精度が良くなっている。

また、本実施形態では、制御部１１は、上記の処理を行うことによって、複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブル（マスタ辞書）を参照し、第１分解手段が分解した前記複数の語句を順不同で全て含む（ここでは、前記の完全一致する）語句グループに対応する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する特定手段として動作する。語句の順序が異なる登録情報についても特定できる。このため、入力された文字列に対応する登録情報を精度良く特定出来る。

なお、上記では、登録情報として、手術名の標準名称を例として説明したが、登録情報は、前記の識別情報そのものであっても良い。この場合、マスタ辞書における標準名称は適宜、条件毎に区別されて記録されてもよい。例えば、良性の内視鏡大腸ポリープ切除術と悪性の内視鏡大腸ポリープ切除術とは、区別され扱われる。

また、上記では、制御部１１は、前記で完全一致した標準名称があった場合（ステップＳ９；ＹＥＳ）には、語句の補完（ステップＳ１０）を行なっていないが、完全一致した標準名称があっても、語句の補完をし、全て補完できた標準名称があった場合、前記で完全一致した標準名称及び前記で全て補完できた標準名称を、入力文字列に対応する登録情報として出力してもよい。これによって、コード化の候補として複数の候補を出力することができ、作業者が目視で確認すれば、登録情報の特定の精度が上がる。

また、制御部１１は、ステップＳ１０において、標準名称に対応する語句グループのうちの分解された複数の語句と同じ語句について、マスタテーブルを参照して対応する種別を特定してもよい。そして、制御部１１は、特定した種別に基づいて、補完用テーブルを参照して、対応する参照項目を特定して、前記の語句が、特定した参照項目における分解された語句と一致するかを判別し、一致した場合に、ステップＳ１１等の処理に進んでも良い。もし、両者が一致すれば、その標準名称は、入力文字列に対応する可能性が高くなるので、登録情報の特定の精度が上がる。

また、制御部１１（第２特定手段）は、前記の第１特定手段が特定した前記１以上の登録情報のうち、前記１以上の足りない語句であって、その他の種別以外の種別の語句のうちの一部の語句の全てが前記の第２分解手段によって分解された前記１以上の語句のうちの少なくとも１つと一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定するようにしてもよい。これによっても、他の項目を参照して登録情報が特定されるので、他の登録情報は、ある程度精度良く特定されることになる。なお、このような場合、登録情報が１つに特定されるように前記のマスタテーブル等が構築されるようにすることが望ましいが、特定する登録情報の候補として登録情報が複数特定されてもよい。

なお、上記プログラムは、インターネット等のネットワークを介して、登録情報特定装置１にダウンロード及びインストールされて記憶部１２に記録され、上記制御部１１に上記処理を行わせてもよい。また、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＤＶＤ−ＲＯＭ（Digital Versatile Disk Read Only Memory）等のコンピュータが読み取り可能な記憶媒体に、上記プログラムを記録し、登録情報特定装置１にインストールさせて記憶部１２に記録し、上記制御部１１に上記処理を行わせてもよい。

１・・・・登録情報特定装置
１１・・・制御部
１２・・・記憶部
１３・・・入力部
１４・・・出力部

Claims

予め登録されている複数の登録情報の中から、複数の項目のうちの所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する第１分解手段と、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記第１分解手段が分解した前記複数の語句を全て含む語句グループに対応する１以上の登録情報を特定する第１特定手段と、
前記複数の項目のうちの前記所定の項目以外の項目に入力された文字列を、前記記憶部に記録されている語句を参照して、１以上の語句に分解する第２分解手段と、
前記第１特定手段が特定した前記１以上の登録情報のうち、対応する前記語句グループに含まれる語句のうちの前記第１分解手段が分解した前記複数の語句以外の１以上の語句のうちの少なくとも１つが前記第２分解手段によって分解された前記１以上の語句のうちの少なくとも１つと一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する第２特定手段と、
を備えることを特徴とする登録情報特定装置。
語句とこの語句の種別とが対応付けられて記録されたデータテーブルを参照し、前記第１特定手段が特定した前記１以上の登録情報に対応する前記語句グループに含まれる語句のうちの前記第１分解手段が分解した前記複数の語句以外の語句に対応する種別を特定する種別特定手段と、
種別と前記複数の項目のうちの少なくとも一部の項目とが対応付けて記録されたデータテーブルを参照し、前記種別特定手段が特定した前記種別に対応する前記項目を特定する項目特定手段と、をさらに備え、
前記第２特定手段が行う処理における前記第２分解手段が分解した１以上の語句は、前記項目特定手段が特定した前記項目に入力された文字列を分解した１以上の語句である、
ことを特徴とする請求項１に記載の登録情報特定装置。
前記登録情報は、医療で用いられる名称である、
ことを特徴とする請求項１又は２に記載の登録情報特定装置。
前記第１分解手段及び／又は前記第２分解手段によって行われる分解は、表記を統一する補正を含む、
ことを特徴とする請求項１乃至３のいずれか１項に記載の登録情報特定装置。
前記第２特定手段が特定した登録情報を識別情報に変換する変換手段をさらに備える、
ことを特徴とする請求項１乃至４のいずれか１項に記載の登録情報特定装置。
前記第２特定手段は、前記複数の語句以外の語句のうちの予め設定されている必須の語句が前記１以上の語句の少なくとも一部と一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する、
ことを特徴とする請求項１乃至５のいずれか１項に記載の登録情報特定装置。
予め登録されている複数の登録情報の中から、複数の項目のうちの所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置が行う登録情報特定方法であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する第１分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記第１分解ステップで分解した前記複数の語句を全て含む語句グループに対応する１以上の登録情報を特定する第１特定ステップと、
前記複数の項目のうちの前記所定の項目以外の項目に入力された文字列を、前記記憶部に記録されている語句を参照して、１以上の語句に分解する第２分解ステップと、
前記第１特定ステップで特定した前記１以上の登録情報のうち、対応する前記語句グループに含まれる語句のうちの前記第１分解ステップで分解した前記複数の語句以外の１以上の語句のうちの少なくとも１つが前記第２分解ステップによって分解された前記１以上の語句のうちの少なくとも１つと一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する第２特定ステップと、
を備えることを特徴とする登録情報特定方法。
予め登録されている複数の登録情報の中から、複数の項目のうちの所定の項目に入力された文字列に対応する登録情報を特定するためのプログラムであって、コンピュータに、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する第１分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記第１分解ステップで分解した前記複数の語句を全て含む語句グループに対応する１以上の登録情報を特定する第１特定ステップと、
前記複数の項目のうちの前記所定の項目以外の項目に入力された文字列を、前記記憶部に記録されている語句を参照して、１以上の語句に分解する第２分解ステップと、
前記第１特定ステップで特定した前記１以上の登録情報のうち、対応する前記語句グループに含まれる語句のうちの前記第１分解ステップで分解した前記複数の語句以外の１以上の語句のうちの少なくとも１つが前記第２分解ステップによって分解された前記１以上の語句のうちの少なくとも１つと一致する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する第２特定ステップと、
を行わせることを特徴とする登録情報特定プログラム。
予め登録されている複数の登録情報の中から、所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する分解手段と、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記分解手段が分解した前記複数の語句を順不同で全て含む語句グループに対応する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する特定手段と、
を備えることを特徴とする登録情報特定装置。
予め登録されている複数の登録情報の中から、所定の項目に入力された文字列に対応する登録情報を特定する登録情報特定装置が行う登録情報特定方法であって、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記分解ステップで分解した前記複数の語句を順不同で全て含む語句グループに対応する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する特定ステップと、
を備えることを特徴とする登録情報特定方法。
予め登録されている複数の登録情報の中から、所定の項目に入力された文字列に対応する登録情報を特定するためのプログラムであって、コンピュータに、
前記所定の項目に入力された前記文字列を、記憶部に記録されている語句を参照して、複数の語句に分解する分解ステップと、
複数の語句からなる語句グループと前記登録情報とが対応付けられて複数記録されたデータテーブルを参照し、前記分解ステップで分解した前記複数の語句を順不同で全て含む語句グループに対応する登録情報を、前記所定の項目に入力された文字列に対応する登録情報として特定する特定ステップと、
を行わせることを特徴とする登録情報特定プログラム。