JP6979392B2

JP6979392B2 - 分析方法、分析装置及びプログラム

Info

Publication number: JP6979392B2
Application number: JP2018139951A
Authority: JP
Inventors: 貫太郎三宅; 大明石; 高伸大崎; 利昇三好
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2021-12-15
Anticipated expiration: 2038-07-26
Also published as: JP2020017094A

Description

本発明は、クラスタリング技術、例えば、レセプトクラスタリングを用いた分析技術に関する。

近年、医療分野においてコンピュータを活用した事務の効率化が進められている。医療分野におけるコンピュータを活用する事例の一つとして、診療報酬の請求についても、レセプト電算処理システムを導入して、請求事務の更なる効率化、ＩＴ化が検討されている。

ここで、レセプト電算処理システムとは、診療報酬の請求を、紙のレセプトに代えて電子媒体に収録した電子レセプトにより提出を行なう仕組みである。そして、レセプト電算処理システムは、医療機関や、審査支払機関及び保険者を通じて一貫した整合性があるシステムを構築し、業務量の軽減と事務処理の迅速化、ペーパーレス化を実現することを目的としている。

このような医療保険制度においては、患者に対して医療行為を行なった医療機関は、実施した医療行為の内容と、その請求額に関する診療報酬点数が記載された電子レセプトを健康保険組合や自治体等の保険者に請求する。これにより患者の自己負担分を除いた医療費の支払いが行なわれる。

この場合、医療機関から審査支払機関へ送付された電子レセプトは、審査支払機関で審査される。すなわち、審査支払機関では医療機関から提出された電子レセプトについて、点数算定の誤り等の事務的な審査や、診療内容等の妥当性の審査を行なう。

さらに、審査を効率的に行うため、コンピュータによって審査を自動化する動きが表れてきている。コンピュータによる審査の自動化を達成するためには、統一的なチェックルールの策定が必要になる。しかしながら、審査は各審査員がそれぞれ判断を行うため、同じような傷病や診療行為が記載されたレセプトであっても、審査員毎に審査結果が異なる場合がある。

審査結果を統一させるため、クラスタリング技術の活用が検討されている。ただし、機械的にクラスタリングする場合、審査を行う人間が「類似している」と感じる集団とは異なる集団にクラスタリングされる可能性がある。

例えば、特許文献１に記載の技術では、利用者が指定した複数のクラスタ内の文章に共通して出現する単語に重み付けが行われることで、再度クラスタリングが行われる際に、利用者が「類似している」と感じられるような集団でクラスタリングすることができる。

また、人間によって類似するデータ群から情報の抽出や意思決定を行うためには、類似するデータ群を可視化する仕組みも必要である。

特許文献２に記載の技術では、ユーザが属性を一つ指定し、計算機は指定されなかった属性毎に、指定属性のカテゴリ毎の集計データを生成する。集計データはクラスタリングされ、得られたクラスタ毎に集計データがヒートマップとして表示される。また、属性については集計データで表現するベクトルの類似度の閾値が指定され、閾値以下の属性だけを表示することや、その際に不要な項目を非表示にすることで、複数の属性において、変化のパターンが類似する属性を観察者が容易に把握できる。

特開２００７−３３４３８８号公報特開２０１６−０１８３０１号公報

特許文献１に記載の技術では、類似の感覚が利用者に依存しているため、利用者が類似していると感じられない場合は重み付けが行われない、という課題があった。また、特許文献１では、利用者が指定した複数クラスタ内の文書に共通して出現する単語がない場合、重み付けが行われない、という課題があった。また、文書やデータに対する統一的なチェックルールを生成するためには、複数の利用者の感覚が異なる場合を考慮した重み付け手法が必要であるが、特許文献１に記載の技術では、複数の利用者の感覚や判断を反映して重み付けを行う手法について明らかにされていない。

また、人間によって類似するデータ群から情報の抽出や意思決定を行うためには、類似するデータ群を可視化する仕組みも必要であるが、特許文献２に記載の技術では、重みなどを合わせて計算して特徴量とする手法や、各データ間の類似度の情報を可視化する手法について明らかにされていない。

そこで本発明は、上記問題点に鑑みてなされたもので、同じ審査結果かつ同様の内容のレセプトを同じクラスタとして分析することを目的とする。

本発明は、プロセッサとメモリを有する計算機が、データの分析を行う分析方法であって、前記計算機が、１つのデータに複数の項目と、当該項目の要素を含む分析対象のデータ群を受け付ける第１のステップと、前記計算機が、分析条件の前記項目と、前記要素を受け付ける第２のステップと、前記計算機が、前記データの各項目について特徴量を算出し、当該特徴量からベクトルを算出する第３のステップと、前記計算機が、前記データの各項目について特徴量を算出し、当該特徴量から各データのベクトルを算出する第４のステップと、前記計算機が、前記ベクトルに対して重み付けを行う第５のステップと、前記計算機が、前記重みを付与したベクトルについてクラスタリングを行う第６のステップと、を含み、前記第５のステップは、前記分析条件に該当するデータに共通して出現する項目の要素に対して重み付けを実施し、前記分析条件に該当するデータにのみ出現する項目の要素に対して重み付けを実施し、前記分析条件に該当するデータに出現しない項目の要素に対して重み付けを実施する。

本発明によれば、レセプトのクラスタリングにおいて、同じ審査結果かつ同様の内容のレセプトを同じクラスタとしてまとめることが可能となる。これにより、審査の自動化に向けたコンピュータのチェックルール構築支援のため、参考とするレセプトの絞込みを実現することができる。前述した以外の課題、構成および効果は、以下の実施例の説明によって明らかにされる。

本発明の実施例を示し、データ分析支援システムの構成の一例を示すブロック図である。本発明の実施例を示し、レセプト基本情報の一例を示す図である。本発明の実施例を示し、傷病名情報の一例を示す図である。本発明の実施例を示し、診療行為情報の一例を示す図である。本発明の実施例を示し、医薬品情報の一例を示す図である。本発明の実施例を示し、特定器材情報の一例を示す図である。本発明の実施例を示し、傷病分類情報の一例を示す図である。本発明の実施例を示し、審査結果情報の一例を示す図である。本発明の実施例を示し、レセプト整形情報の一例を示す図である。本発明の実施例を示し、傷病名項目を統合したレセプト整形情報の一例を示す図である。本発明の実施例を示し、ビット化処理が行われたレセプト整形情報の一例を示す図である。本発明の実施例を示し、重み付け処理の一例を示すフローチャートである。本発明の実施例を示し、重み付け処理が行われたレセプト整形情報の一例を示す図である。本発明の実施例を示し、類似度行列の一例を示す図である。本発明の実施例を示し、レセプト併合過程情報の一例を示す図である。本発明の実施例を示し、レセプト−クラスタ対応表の一例を示す図である。本発明の実施例を示し、ヒートマップ及び樹状図出力の一例を示す図である。本発明の実施例を示し、データ分析支援システムで行われる処理の一例を示すフローチャートである。

以下、添付図面を参照して本発明の実施例を説明する。各添付図面において、機能的に同じ要素は同じ参照番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装や形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく追加または削除などの構成または構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼働するソフトウェアで実装しても良いし、専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

また、各機能を実現するプログラムや、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現される必要はなく、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

以下では、特徴量計算部１２２等の各処理部を主語（処理主体）として、本発明の実施形態における各処理について説明を行うが、各処理部はプログラムによって実現可能である。このようなプログラムはプロセッサ（演算装置）によって実行されることで、所定の処理をメモリ及び通信ポート（通信制御装置）を用いながら行うため、プロセッサを主語とした説明としてもよい。

また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。

本実施例では、本発明の基本的な一例として、特徴量計算機能が、特徴量計算部１２２として実装される例を説明する。特徴量計算部１２２では、分析対象とするカテゴリ変数の要素に該当するデータ群に共通して含まれる項目と、同データ群に独立して含まれる項目と、分析対象とするカテゴリ変数の要素に該当しないデータ群に独立して含まれる項目にそれぞれ重み付けを行い、特徴量を算出する。

なお、カテゴリ変数は、質的変数を含むことができるが、本実施例では、分析の条件として扱う。すなわち、分析の条件として１以上の項目と、１以上の項目の要素をデータ群から指定することができる。また、項目の要素は、質的変数に加えて量的変数で指定することができる。項目の要素は、数値や文字列を含む。

これによって、特徴量計算部１２２は、指定されたカテゴリ変数と項目の値が同じで、かつ内容（項目の要素）が類似するデータが高い類似度を有するような特徴量を算出することができる。また、重み付けにおいて特徴量に与えられる重みの値は、指定されたカテゴリ変数の値に該当するデータの出現頻度や、前述の項目を含むデータの出現頻度に応じた大きさの重みが与えられる。これによって、特徴量計算部１２２は、分析対象のデータ群の中でも一部にしか出現しない等、出現傾向に特徴のある項目に大きな特徴量を与えることができる。

なお、以下の説明では、指定されたカテゴリ変数の値に該当するデータは、指定された分析条件（項目及び要素）を満たすデータ（レセプト）を指す。

可視化部１２５では、類似度が高いデータが近い位置に配置され、データの特徴量を可視化したヒートマップと、クラスタリングによる各データの類似度と併合過程を表現する樹状図を同時に可視化する手法を用いる。これによって、データが他のどのデータとどの程度類似しているかを分析者が理解しやすくなる。

レセプト（診療報酬明細書）情報は、健康保険の加入者が医療機関を受診した際の傷病名や、処方された医薬品、実施された診療行為、及び医療費（点数）が記録された情報であり、その一例は図２を用いて後述する。

なお、処方された医薬品や、実施された診療行為、及び診療行為の実施において使用された特定器材を医療行為と総称する。また、特に説明がない限り、レセプト情報には付箋の履歴情報や、補正データなどのレセプトの審査過程で付加される情報も含むものとする。また、レセプト情報には診療行為や医薬品など一部の情報が存在しない場合もある。

本実施例では、分析対象とするデータ群がレセプト情報であり、レセプト情報に含まれる各種情報から、特徴量計算部１２２が各レセプトの特徴量を算出する。そして、類似度情報計算部１２３及びクラスタリング部１２４がレセプト間の類似度を計算してクラスタリングを行い、クラスタリングの結果を用いて診療行為と審査結果が類似するレセプトをわかりやすく可視化する方法を提供する。なお、実施例では扱うデータをレセプト情報としているが、本発明の対象はレセプト情報に限定されない。

＜データ分析支援システムの構成＞
図１は、本発明の実施例によるデータ分析支援システム１００の構成の一例を示すブロック図である。

本発明の実施例のデータ分析支援システム１００は、データ分析装置１１０と、データベース１３０と、を有する。データ分析装置１１０は、入力部１１１と、出力部１１２と、記憶媒体１１３と、メモリ１１４と、演算装置１１５と、を有する。

入力部１１１は、マウスや、キーボード、タッチパネル、マイク等のヒューマンインタフェースであり、データ分析装置１１０への入力を受け付ける。出力部１１２は、データ分析支援システム１００による演算結果を出力するディスプレイやプロジェクタ等のヒューマンインタフェースである。

記憶媒体１１３は、データ分析支援システム１００によるデータ分析処理を実現する各種プログラム、及びデータ分析処理の実行結果等を格納する記憶装置であり、例えば、不揮発性記憶媒体（磁気ディスクドライブ、不揮発性メモリ等）である。メモリ１１４には、記憶媒体１１３に格納されているプログラムやデータがロードされる。

演算装置１１５は、メモリ１１４にロードされたプログラムを実行する装置（プロセッサ）であり、例えば、ＣＰＵ、ＧＰＵなどである。以下に説明する処理及び演算は、演算装置１１５が実行する。

演算装置１１５によって実行されるプログラムは、リムーバブルメディア（ＣＤ−ＲＯＭ、フラッシュメモリなど）又はネットワークを介して各サーバに提供され、非一時的記憶媒体である不揮発性記憶装置に格納される。このため、計算機システムには、リムーバブルメディアを読み込むインタフェースを設けるとよい。

データ整形部１２１と、特徴量計算部１２２と、類似度情報計算部１２３と、クラスタリング部１２４と、可視化部１２５の各機能部はプログラムとして記憶媒体１１３に格納され、メモリ１１４にロードされてから演算装置１１５によって実行される。

演算装置１１５は、各機能部のプログラムに従って処理することによって、所定の機能を提供する機能部として稼働する。例えば、演算装置１１５は、データ整形プログラムに従って処理することでデータ整形部１２１として機能する。他のプログラムについても同様である。

データベース１３０は、データ記憶部１３１と、整形情報記憶部１３２と、類似度情報記憶部１３３と、を有している。なお、データベース１３０は、データ分析装置１１０に接続された記憶装置に格納されても良いし、外部の計算機によって提供されても良い。

データ記憶部１３１は、入力部１１１に入力されたデータの他、分析に使用する各種データを格納する。本実施例において、データはレセプト情報であり、レセプト基本情報２００（図２）と、傷病名情報３００（図３）と、診療行為情報４００（図４）と、医薬品情報５００（図５）と、特定器材情報６００（図６）と、傷病名分類情報７００（図７）と、審査結果情報８００（図８）、を含む。

ただし、各種情報２００乃至８００は実施例を説明するための一例であり、データの構成はこれらに限定されない。また、各種情報２００乃至８００がすべて含まれる必要はなく、分析対象とするカテゴリ変数と、分析対象のカテゴリ変数以外の変数またはデータが最低一つ以上含まれればよい。

整形情報記憶部１３２は、データ整形部１２１及び特徴量計算部１２２のいずれか、もしくは両機能部によってデータ記憶部１３１に記憶されているデータを整形したデータが保存されている。

類似度情報記憶部１３３は、類似度情報計算部１２３によって整形情報記憶部１３２に記憶されているデータが処理され生成された類似度情報が保存されている。クラスタ情報記憶部１３４は、類似度情報記憶部１３３に記憶されている類似度情報のデータをクラスタリングした結果として得られるクラスタ情報が保存されている。なお、前述した各機能部は、ソフトウェアとして実現されているが、これらの機能の一部又は全てを演算装置１１５等のハードウェアを用いて実現されてもよい。

また、データベース１３０に記憶されているデータを、データ整形部１２１、特徴量計算部１２２、類似度情報計算部１２３、クラスタリング部１２４又は可視化部１２５にて処理した結果である処理後データは、データベース１３０に保持する必要はなく、記憶媒体１１３もしくメモリ１１４に保持してもよい。

データ分析支援システム１００は、一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで稼働してもよく、複数の物理的計算機資源上に構築された仮想計算機上で稼働してもよい。また、サーバ及びクライアント端末で構成された計算機システムでもよい。

以下、各種情報レセプト基本情報２００乃至審査結果情報８００、及び各データ整形部１２１乃至可視化部１２５について詳細に説明する。

＜レセプト情報＞
図２は、レセプト基本情報２００の構成の一例を示す図である。レセプト基本情報２００は、レセプトと、レセプトに記載された医療を受けた患者との対応関係を保持する情報である。

レセプト基本情報２００は、検索番号２０１と、性別２０２と、年齢２０３と、診療年月２０４と、合計点数２０５と、審査年月２０６をエントリの構成項目として含んでいる。

検索番号２０１は、レセプトを一意に識別するための識別子である。性別２０２は、当該レセプトに記載された医療行為を受けた患者の性別である。年齢２０３は、当該レセプトに記載された医療を受けた患者の年齢である。また、年齢２０３には、患者の生年月日を記載してもよい。

診療年月２０４は、患者が医療機関で受診した年及び月である。診療年月２０４には年月の他、患者が医療機関で受診した年月日を記載してもよい。合計点数２０５は、一件のレセプトの合計点数を示す情報である。なお、合計点数に「１０」を乗じると医療費（円）の金額が算出される。すなわち、本実施例のレセプト基本情報２００は、患者毎に毎月の医療費を集計したテーブルである。審査年月２０６は、該当レセプトが審査機関に提出されて審査を受けた年月である。

＜傷病名情報＞
図３は、傷病名情報３００の構成の一例を示す図である。傷病名情報３００は、検索番号２０１と、傷病名コード３０１と、傷病名３０２と、修飾語コード３０３と、修飾語３０４と、をエントリの構成項目として含んでいる。

検索番号２０１は、レセプトを一意に識別するための識別子であり、レセプト基本情報２００の検索番号２０１と同じ番号を用いる。傷病名コード３０１は、レセプトに記載される傷病名コードである。

傷病名３０２は、当該傷病名コードに対応する傷病の名称である。修飾語コード３０３は、当該傷病名コードに関する情報を付加するコードである。修飾語３０４は、当該修飾語コード３０３に対応する修飾語の名称である。

＜診療行為情報＞
図４は、診療行為情報４００の構成の一例を示す図である。診療行為情報４００は、検索番号２０１と、診療行為コード４０１と、診療行為名４０２と、診療行為点数４０３と、診療行為数量４０４と、診療行為回数４０５と、を構成項目として含んでいる。

検索番号２０１は、レセプトを一意に識別するための識別子であり、レセプト基本情報２００の検索番号２０１と同じ番号を用いる。

診療行為コード４０１は、レセプトに記載された診療行為を識別するための識別子である。診療行為名４０２は、当該診療行為コードに対応する診療行為の名称である。診療行為点数４０３は、当該診療行為の保険点数を示す情報である。診療行為数量４０４は、当該診療行為に関する数量を示す情報である。診療行為回数４０５は当該診療行為を実施した回数を示す情報である。

なお、１件のレセプトには、複数の診療行為名が記載可能である。図４では、例えば、検索番号２０１が「Ｋ０００１」のレセプトには、診療行為Ａ、診療行為Ｂ及び診療行為Ｃの診療行為名４０２が記載されている。

＜医薬品情報＞
図５は、医薬品情報５００の構成の一例を示す図である。医薬品情報５００は、検索番号２０１と、医薬品コード５０１と、医薬品名５０２と、医薬品点数５０３と、医薬品使用量５０４と、医薬品回数５０５と、を構成項目として含んでいる。

医薬品コード５０１は、レセプトに記載された医薬品を識別するための医薬品コードである。医薬品名５０２は、レセプトに記載された医薬品の名称である。医薬品点数５０３は、医薬品の保険点数を示す情報である。医薬品使用量５０４は当該医薬品を使用した数量を示す情報である。医薬品回数５０５は当該医薬品を使用した回数を示す情報である。

なお、１件のレセプトには、複数の医薬品名が記載可能である。図５では、例えば、検索番号２０１が「Ｋ０００１」のレセプトは、医薬品Ａ、医薬品Ｂ及び医薬品Ｃの医薬品名５０２が記載されている。

＜特定器材情報＞
図６は、特定器材情報６００の構成の一例を示す図である。特定器材情報６００は、検索番号２０１と、特定器材コード６０１と、特定器材名６０２と、特定器材点数６０３と、特定器材使用量６０４と、特定器材回数６０５と、を構成項目として含んでいる。

特定器材コード６０１は、レセプトに記載された特定器材を識別するための特定器材コードである。特定器材名６０２は、レセプトに記載された特定器材の名称である。特定器材点数６０３は、特定器材の保険点数を示す情報である。特定器材使用量６０４は当該特定器材を使用した数量を示す情報である。特定器材回数６０５は当該特定器材を使用した回数を示す情報である。

なお、１件のレセプトには、複数の特定器材名が記載可能である。図６では、例えば、検索番号２０１が「Ｋ０００２」のレセプトは、特定器材Ａ、特定器材Ｂ及び特定器材Ｃの特定器材名が記載されている。

＜傷病名分類情報＞
図７は、傷病名分類情報７００の構成の一例を示す図である。傷病名分類情報７００は、傷病分類と当該傷病分類に属する傷病名とを対応付ける情報であり、傷病分類７０１と、傷病名コード３０１と、を構成項目として含んでいる。

傷病分類７０１は、各傷病が属する分類であり、例えばＩＣＤ−１０コードや疾病分類コードを用いてもよい。傷病名コード３０１は、レセプトに記載される傷病名コードであり、傷病名情報３００の傷病名コード３０１と同じ番号を用いる。

＜審査結果情報＞
図８は、審査結果情報８００の構成例を示す図である。審査結果情報８００は、レセプト中で修正、追加、又は削除が行われたレコードを対応付ける情報であり、検索番号２０１と、増減点事由コード８０１と、増減点数８０２と、連絡情報８０３と、を構成項目として含んでいる。

増減点事由コード８０１は、レセプト中で修正、追加、又は削除が行われたレコードに対し、その変更が行われた理由を表す。増減点数８０２は、当該レセプトの審査結果で保険点数が変化した場合における点数の増加量または減少量である。連絡情報８０３は、審査機関が当該レセプトを生成した医療機関に対して連絡する、審査結果を補足する情報であり、審査結果の理由等を含む。

＜データ整形処理の詳細＞
次に、データ整形部１２１の処理について説明する。データ整形部１２１はデータ記憶部１３１に記憶されている各種データを、各データに記録された識別子などを用いて突き合わせを実施して、情報を集計または統合し、識別子毎に１件（１レコードまたは１エントリ）のデータの情報（整形情報）で表現する表形式に整形する。

本実施例では、審査機関に提出されたレセプトのうち、レセプト基本情報２００、傷病名情報３００、診療行為情報４００、医薬品情報５００、特定器材情報６００及び審査結果情報８００をデータ整形部１２１が集計または統合し、一行につき検索番号一件分のレセプトの情報を表現する表形式に整形する。

整形処理は、所定の条件に該当するレセプトのみを対象としてもよい。所定の条件は、検索番号、審査年月、指定する診療行為コードが記載されたレコードを含むレセプト、等により設定されるが、ここに挙げた条件に限定されない。

以下では、２０１６年１月から２０１６年１２月までに提出されたレセプト、すなわち２０１６年のレセプトを対象とする条件で、データ整形部１２１が集計または統合したものとして説明するが、条件とする期間は別の期間でもよい。また、集計処理の過程は以下の方法に限定されるものではない。

図９は、レセプト整形情報９００の構成の一例を示す図である。図９を用いて、データ整形部１２１の処理を説明する。

レセプト整形情報９００は、レセプト情報を整形したレセプト整形情報を含むものである。レセプト整形情報９００の各行は、例えば、分析対象のレセプト１００件に対応する情報を集計したものである。

検索番号２０１と、審査年月２０６、性別２０２、年齢２０３及び合計点数２０５は、それぞれ、レセプト基本情報２００の検索番号２０１、審査年月２０６、性別２０２、年齢２０３及び合計点数２０５と同じ情報である。

審査結果９０１は、分析対象のレセプトにおける審査結果情報８００の情報から、レセプト毎に該レセプトの審査結果を「請求通り」又は「査定」の２つに分類したカテゴリ変数である。

なお、本実施例は、カテゴリ変数としてレセプト整形情報９００の審査結果９０１を指定し、カテゴリ変数の値（要素）を「査定」または「請求通り」のいずれかに設定する例を示すが、これに限定されるものではない。

増減点事由９０２は、分析対象のレセプトにおける審査結果情報８００の情報から、レセプト毎に該レセプトの増減点事由コードを集計し、記載のある増減点事由コードをリスト化したものである。

なお、本実施例では、データ整形部１２１がレセプト整形情報９００を生成する際に、審査結果情報８００に検索番号２０１が登録されているレコードについては、審査結果９０１を「査定」に設定し、検索番号２０１が登録されていないレコードについては、審査結果９０１を「請求通り」に設定する例を示す。

傷病名コードＤ１０００＿カウント９１１は、検索番号２０１毎に、傷病名情報の傷病名コードに「Ｄ１０００」の記載があるレコードの数である。傷病名コードＤ２０００＿カウント９１２は、検索番号２０１毎に、傷病名情報の傷病名コードに「Ｄ２０００」の記載があるレコードの数である。

診療行為コードＳ１０００＿カウント９１３は、検索番号２０１毎に、診療行為情報の診療行為コードに「Ｓ１０００」の記載があるレコードの数である。診療行為コードＳ２０００＿カウント９１４は、検索番号２０１毎に、診療行為情報の診療行為コードに「Ｓ２０００」の記載があるレコードの数である。

医薬品コードＹ１０００＿カウント９１５は、検索番号２０１毎に、医薬品情報の医薬品コードに「Ｙ１０００」の記載があるレコードの数である。医薬品コードＹ２０００＿カウント９１６は、検索番号２０１毎に、医薬品情報の医薬品コードに「Ｙ２０００」の記載があるレコードの数である。

特定器材コードＴ１０００＿カウント９１７は、検索番号２０１毎に、特定器材情報の特定器材コードに「Ｔ１０００」の記載があるレコードの数である。特定器材コードＴ２０００＿カウント９１８は、検索番号２０１毎に、特定器材情報の特定器材コードに「Ｔ２０００」の記載があるレコードの数である。

なお、レセプト整形情報９００は図９に示す構成に限定されず、必要に応じて構成要素が増えてもよく、また構成要素を減らしてもよい。例えば、診療行為情報４００、医薬品情報５００及び特定器材情報６００の各情報の点数をレセプト毎に合計した合計点数を構成に含んでいてもよい。

以下、データ整形部１２１の処理について、分析対象のレセプト情報を整形する場合を具体的に説明する。

（ｉ）レコード集計処理
まず、データ整形部１２１は、レセプト基本情報２００から１つの検索番号を選択する。次に、データ整形部１２１は、審査結果情報８００を参照して、当該検索番号のレコードの増減点事由コード８０１及び増減点数８０２の値を判定する。すなわち、データ整形部１２１は、増減点事由コード８０１が一つ以上記載されており、かつ増減点数８０２の合計が負、すなわち該当レセプトの合計点数が減少している場合に、該当レセプトの審査結果を「査定」とする。

また、データ整形部１２１は、前述の条件を満たさないレセプトの審査結果を請求通りとしている。データ整形部１２１は、これらの結果を、選択された検索番号の審査結果９０１に登録する。さらに、データ整形部１２１は、増減点事由９０２に、増減点事由コード８０１に記載のある増減点事由コードをリストとして登録する。

例えば、図９に示すレセプト整形情報９００において、１行目の検索番号「Ｋ０００１」に関して、審査結果情報８００からは該当検索番号のレコードが存在しない。そのため、データ整形部１２１は、検索番号「Ｋ０００１」の審査結果として「請求通り」を登録する。

一方、図９に示すレセプト整形情報９００において、２行目の検索番号「Ｋ０００２」については、データ整形部１２１で、審査結果情報８００からは増減点事由コード「Ａ」かつ増減点数が「−３００」のレコードと、増減点事由コード「Ｂ」かつ増減点数が「−６００」のレコードが取得できる。

データ整形部１２１は、審査結果情報８００における検索番号「Ｋ０００２」のレコードを全件参照すると、増減点事由コードが１件以上存在し、かつ増減点数の合計が−９００と負の数であることから、検索番号「Ｋ０００２」の審査結果として「査定」を登録する。

また、データ整形部１２１は、増減点事由９０２には増減点事由コードにおいて記載があった「Ａ」と「Ｂ」をリスト化し、「Ａ，Ｂ」として登録する。

さらに、データ整形部１２１は、傷病名情報３００を参照して、傷病名コード毎に、当該傷病名コードが記載された当該検索番号のレコード数を数える。これによって、データ整形部１２１は、傷病名コード毎に、当該検索番号のレセプトに記載された数を取得する。

同様に、データ整形部１２１は、診療行為情報４００を参照して、該当レセプト中の診療行為コード毎のレコード出現数をカウントし、医薬品情報５００を参照して、該当レセプト中の医薬品コード毎のレコード出現数をカウントし、特定器材情報６００を参照して、該当レセプト中の特定器材コード毎のレコード出現数をカウントする。これにより、選択された検索番号のデータ行が生成される。

例えば、図９に示すレセプト整形情報９００において、データ整形部１２１では、１行目の検索番号「Ｋ０００１」のデータは、診療行為情報４００から診療行為コード「Ｓ１０００」及び「Ｓ２０００」が取得できる。

診療行為情報４００において、検索番号「Ｋ０００１」に該当する診療行為コード「Ｓ２０００」は二つ出現し、「Ｓ１０００」は一つ出現するため、レセプト整形情報９００の一行目の診療行為コードＳ２０００＿カウント９１４の欄には「２」が登録される。

また、診療行為コードＳ１０００＿カウント９１３の欄には「１」が記録される。出現しなかった傷病名コード＿カウント、診療行為コード＿カウント、医薬品コード＿カウント及び特定器材コード＿カウントの欄には「０」が登録される。

データ整形部１２１は、以上の処理を、分析対象となる全ての検索番号２０１に対して行う。

ここで、データ整形部１２１が、レセプト整形情報９００を生成する際に、類似の複数項目を統合してもよい。例えば、傷病名の項目（９１１、９１２）のうち、傷病名「Ｄ１０００」の病態と傷病名「Ｄ２０００」の病態とが類似している場合、これらを纏めて１つの項目として扱ってもよい。

このとき、同一レセプト中の傷病名「Ｄ１０００」を含むレコードの出現回数と傷病名「Ｄ２０００」を含むレコードの出現回数とを加算した値を、新しく纏めた項目の値とする。項目が類似するかを判断するための基準は、例えば、以下の方法がある。

傷病名分類情報７００で同一傷病名分類に属する傷病名コード３０１または傷病名を類似項目とする。また、予め類似項目情報を人手により生成しておく。この統合処理により、分析対象となる項目の数が削減されるため、以降の処理における計算量の低下が期待される。

図１０は、レセプト整形情報の傷病名コード３０１を、図７に示す傷病名分類情報７００における傷病分類７０１に置き換えたレセプト整形情報１０００の例を説明する図である。

図１０の、傷病分類を用いたレセプト整形情報１０００において、傷病分類ＤＧ１００＿カウント１００１は、検索番号２０１毎に、傷病分類ＤＧ１００に該当する傷病名コードのレコードが出現する回数を表す。また、傷病分類ＤＧ２００＿カウント１００２は、検索番号２０１毎に、傷病分類ＤＧ２００に該当する傷病名コードのレコードが出現する回数を表す。

図７の傷病名分類情報７００を参照すると、傷病名コード「Ｄ１０００」及び傷病名コードＤ「２０００」は、傷病分類「ＤＧ１００」で置き換えることができ、傷病分類「ＤＧ１００＿カウント１００１」の値は、図３において各検索番号２０１に関する傷病名コード「Ｄ１０００」のレコード出現数及び傷病名コード「Ｄ２０００」のレコード出現数を加えた値である。

例えば、図３において、検索番号「Ｋ０００１」の傷病名コード「Ｄ１０００」のレコード出現数は１であり、かつ傷病名コード「Ｄ２０００」のレコード出現数は１であるため、図１０における該当検索番号の傷病分類「ＤＧ１００＿カウント１００１」の値は、それらの合計である「２」が登録される。

（ｉｉ）ビット化処理
上記（ｉ）レコード集計処理の後、データ整形部１２１は、レセプト整形情報１０００の各情報のレコードの出現回数を、レコード出現の有無を示す情報に置き換えるビット化処理を実施する。

すなわち、データ整形部１２１は、レコードの出現回数が１以上の（傷病が診断された、もしくは医療行為を行った）場合を値＝「１」として纏め、傷病名情報３００に傷病名コード「Ｄ１０００」が記載されたレコードが出現したか否かを表す。傷病名コードＤ２０００＿出現１１０２は、各検索番号２０１毎に、傷病名情報３００に傷病名コード「Ｄ２０００２」が記載されたレコードが出現したか否かを表す。

診療行為コードＳ１０００＿出現１１０３は、各検索番号２０１毎に、診療行為情報４００に診療行為コード「Ｓ１０００」が記載されたレコードが出現したか否かを表す。診療行為コードＳ２０００＿出現１１０４は、各検索番号２０１毎に、診療行為情報４００に診療行為コード「Ｓ２０００」が記載されたレコードが出現したか否かを表す。

医薬品コードＹ１０００＿出現１１０５は、各検索番号２０１毎に、医薬品情報５００にコード「Ｙ１０００」が記載されたレコードが出現したか否かを表す。医薬品コードＹ２０００＿出現１１０６は、各検索番号２０１毎に、医薬品情報５００にコード「Ｙ２０００」が記載されたレコードが出現したか否かを表す。

特定器材コードＴ１０００＿出現１１０７は、各検索番号２０１毎に、特定器材情報６００にコード「Ｔ１０００」が記載されたレコードが出現したか否かを表す。特定器材コードＴ２０００＿出現１１０８は、各検索番号２０１毎に、特定器材情報６００にコード「Ｔ２０００」が記載されたレコードが出現したか否かを表す。

データ整形部１２１は、まず、レセプト整形情報９００を参照し、検索番号２０１から１つの検索番号を選択する。次に、データ整形部１２１は、図９の傷病名コードＤ１０００＿カウント９１１を参照し、登録されている数値が１以上であれば「１」を、数値が０であれば「０」を傷病名コードＤ１０００＿出現１１０１に登録する。

同様にして、データ整形部１２１は、図９の傷病名コードＤ２０００＿カウント９１２を参照して、傷病名コードＤ２０００＿出現１１０２に２値の情報を登録し、診療行為コードＳ１０００＿カウント９１３を参照して、診療行為コードＳ１０００＿出現１１０３に２値の情報を登録する。

また、データ整形部１２１は、図９の診療行為コードＳ２０００＿カウント９１４を参照して診療行為コードＳ２０００＿出現１１０４に２値の情報を登録し、図９の医薬品コードＹ１０００＿カウント９１５を参照して、医薬品コードＹ１０００＿出現１１０５に２値の情報を登録する。データ整形部１２１は、図９の医薬品コードＹ２０００＿カウント９１６を参照して医薬品コードＹ２０００＿出現１１０６に２値の情報を登録する。

データ整形部１２１は、図９の特定器材コードＴ１０００＿カウント９１７を参照して特定器材コードＴ１０００＿出現１１０７に２値の情報を登録し、特定器材コードＴ２０００＿カウント９１８を参照して特定器材コードＴ２０００＿出現１１０８に２値の情報を登録する。

例えば、図９に示すレセプト整形情報９００において、検索番号「Ｋ０００１」の診療行為コードＳ２０００＿カウント９１４は「２」、すなわち１以上となっているため、図１１に示すレセプト整形情報１１００における診療行為コードＳ２０００＿出現１１０４には２値化された「１」が登録される。

以上の（ｉ）及び（ｉｉ）の処理によって、データ整形部１２１は、レセプト整形情報９００、１０００、１１００を生成することができる。図９、図１０及び図１１に示す、生成されたレセプト整形情報は、データベース１２０の整形情報記憶部１３２に記憶される。

なお、レセプト整形情報９００の値は、各情報のレコードの数で集計した後に、（ｉｉ）ビット化処理によりレコード出現の有無を示す情報に変化させたが、（ｉ）レコード集計処理の段階で各検索番号の各項目のレコード出現の有無を示す情報として取得してもよい。

すなわち、データ整形部１２１が、（ｉ）レコード集計処理の段階で各検索番号２０１の各項目についてレコードの出現回数が１以上の（傷病が診断された、もしくは医療行為を行った）場合を「１」として纏め、レコードの出現回数が０の（傷病が診断されていない、もしくは医療行為を行われていない）場合を０として、２値で表してもよい。

また、レセプト整形情報１１００の値は、各項目のレコードの出現の有無の情報としたが、（ｉｉ）ビット化処理を行わないものを最終的なレセプト整形情報の値としてもよい。すなわち、（ｉ）レコード集計処理で得られたレコード出現回数をレセプト整形情報の値としてもよい。

また、レコードの出現回数が重要度を表す場合は、レセプト整形情報１１００の値は、レコードの出現回数を段階に分類した値としてもよい。例えば、レコードの出現回数が０回の場合を０とし、レコードの出現回数が１〜４回の場合を１とし、レコード回数が５回以上の場合を２とするなど、３段階で表してもよい。この場合、分類された項目はカテゴリ変数として扱うことができる。

また、レセプト整形情報９００の年齢２０３などの連続値は、項目の状態数を減らすために、またはカテゴリ変数として表現可能にするために、離散化しておいてもよい。例えば、年齢は５年毎に表示して、４０〜４４歳までを４２、４５〜４９歳までを４７などとして、その区間の数値を代表する値に変換しておいてもよい。

＜特徴量計算処理の詳細＞
続いて、特徴量計算部１２２で行われる処理の一例について説明する。特徴量計算部１２２は、レセプト整形情報１１００の各項目に登録された値を特徴量とし、さらに分析対象とするカテゴリ変数の要素に該当するレセプトにおいて、各項目の出現条件及び出現頻度に応じた重み付けを行う。これによって、特徴量計算部１２２は、指定されたカテゴリ変数の値が同じで、かつ内容が類似するデータが高い類似度を有するような特徴量を算出することができる。

図１２は、重み付け処理の一例を示すフローチャートである。この処理は、データ整形部１２１の処理が完了した後に、特徴量計算部１２２で行われる。

重み付け処理１２００は、分析対象のレセプト群に共通する項目の有無判定処理１２０１と、分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２と、分析対象外のレセプト群にのみ存在する項目の有無判定処理１２０３と、出現頻度に係る重み計算処理１２０４と、正規化処理１２０５と、で構成される。

（項目重み付け）
分析対象のレセプト群に共通する項目の有無判定処理１２０１は、カテゴリ変数の値が指定の値に該当するレセプト群において、共通して含まれる項目が存在する場合、該当項目の特徴量に重み付け処理１２１１を行う。換言すれば、特徴量計算部１２２は、分析の条件である審査結果９０１が「査定」に該当するレセプト群の各項目の要素（特徴量）に対して重み付け処理１２１１を実施する。

また、分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２は、カテゴリ変数の値が指定の値に該当するレセプト群において、指定の値に該当するレセプト群には含まれており、指定の値に該当しないレセプト群には含まれない項目が存在する場合、該当項目の特徴量に重み付け処理１２１２が行われる。

また、分析対象外のレセプト群にのみ存在する項目の有無判定処理１２０３で該当する項目が存在する場合、該当項目の特徴量に重み付け処理１２１３が行われる。換言すれば、分析条件に該当するレセプト群には出現しない項目の要素に対して重み付け処理１２１３が行われる。

続いて、重み付け処理１２１１、重み付け処理１２１２及び重み付け処理１２１３において行われる各重み付け処理について説明する。

重み付け処理１２１１、重み付け処理１２１２及び重み付け処理１２１３において、重みの値は下記の数式１または数式２の値を用いる。

式（１）において、Ｗは重みの値を表し、Ｎはクラスタリング対象となるレセプトの件数（合計）を表し、ｎ_ｉは該当項目を含むレセプトの件数を表す。式（１）は該当項目を含むレセプトの件数に依存して重みの値が変動するため、出現傾向が特徴的な項目であるほどより大きな重みが与えられる。Ｎ≧ｎ_ｉであることから、Ｗが取りうる値はＷ≧１となる。

また、式（２）において、Ｗは重みの値を表し、ｎ_ｕは分析対象とするカテゴリ変数の要素に該当しないレセプトの件数を表し、ｎ_ｏは分析対象とするカテゴリ変数の要素に該当するレセプトの件数を表す。

式（２）は該当項目を含むレセプトの件数に依存せず、対象とするカテゴリ変数の要素に該当するレセプトの件数に依存する。対象とするカテゴリ変数の要素次第では、ｎ_ｕはｎ_ｏより小さくなる場合も考えられ、Ｗが取りうる値は０より大きいが１より小さい値になる場合がある。

本実施例で分析対象とするレセプト情報の場合、審査結果が「査定」となるレセプトは全体の１％前後であることを想定しており、審査結果が「査定」のレセプトを分析対象とする場合、ｎ_ｕが「９９」に対してｎ_ｏは「１」となるため、Ｗは「９９」程度の値を取ることが期待できる。

以下、図１３はレセプト整形情報１１００に対し、重み付け処理１２００における処理１２０１、１２０２、１２０３、１２１１、１２１２及び１２１３の処理を行った重み付け処理後のレセプト整形情報１３００の一例を示す図である。

傷病名コードＤ１０００＿特徴量１３０１は、検索番号２０１毎の各レセプトにおける傷病名コードＤ１０００に対応する特徴量を表す。傷病名コードＤ２０００＿特徴量１３０２は、検索番号２０１毎の各レセプトにおける傷病名コードＤ２０００に対応する特徴量を表す。

診療行為コードＳ１０００＿特徴量１３０３は、検索番号２０１毎の各レセプトにおける診療行為コードＳ１０００に対応する特徴量を表す。診療行為コードＳ２０００＿特徴量１３０４は、検索番号２０１毎の各レセプトにおける診療行為コードＳ２０００に対応する特徴量を表す。

医薬品コードＹ１０００＿特徴量１３０５は、検索番号２０１毎の各レセプトにおける医薬品コードＹ１０００に対応する特徴量を表す。医薬品コードＹ２０００＿特徴量１３０６は、検索番号２０１毎の各レセプトにおける医薬品コードＹ２０００に対応する特徴量を表す。

特定器材コードＴ１０００＿特徴量１３０７は、検索番号２０１毎の各レセプトにおける特定器材コードＴ１０００に対応する特徴量を表す。特定器材コードＴ２０００＿特徴量１３０８は、検索番号２０１毎の各レセプトにおける特定器材コードＴ２０００に対応する特徴量を表す。

図１３を用いて、重み付け処理１２００における処理１２０１、１２０２、１２０３、１２１１、１２１２及び１２１３の処理を説明する。

まず、図１１の整形情報１１００において、分析対象のレセプト群に共通する項目の有無判定処理１２０１及び重み付け処理１２１１を実施する例を説明する。

分析対象のレセプト群に共通する項目の有無判定処理１２０１は、分析対象のレセプト中で、指定されたカテゴリ変数である審査結果が「査定」のレセプトに共通する項目を探索する。図１１のレセプト整形情報１１００において、審査結果が「査定」のレセプトは検索番号２０１が「Ｋ０００２」及び「Ｋ０００３」の２件が該当する。

この２件のレセプトにおいて共通して出現する項目を探索すると、傷病名コードＤ２０００、診療行為コードＳ１０００、医薬品コードＹ１０００、医薬品コードＹ２０００、及び特定器材コードＴ１０００が共通して出現する。

重み付け処理１２１１で、重みの値は上記式（２）を使用すると、分析対象のレセプトのうち、審査結果が「査定」のレセプトは２件で、それ以外のレセプトは９８件のため、重みの値は「９８／２」、すなわち「４９」となる。

続いて、図１１のレセプト整形情報１１００において、分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２及び重み付け処理１２１２を実施する例を説明する。

分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２は、分析対象のレセプト中で、指定するカテゴリ変数である審査結果が「査定」のレセプトにのみ出現する項目を探索する。図１１のレセプト整形情報１１００において、審査結果が「査定」のレセプトは検索番号２０１が「Ｋ０００２」及び「Ｋ０００３」の２件が該当する。換言すれば、特徴量計算部１２２は、分析の条件である審査結果９０１が「査定」に該当するレセプト群にのみ出現する項目の特徴量に対して重み付け処理１２１２を実施する。

これらの２件のレセプトには含まれており、他の９８件には含まれない項目を探索すると、特定器材コードＴ１０００が該当し、「Ｋ０００２」及び「Ｋ０００３」の２件に含まれている。

重み付け処理１２１２で、重みの値に式（１）を使用すると、分析対象のレセプトが１００件で、条件に該当するレセプトは２件のため、重みの値は「１００／２」、すなわち「５０」となる。

続いて、図１１のレセプト整形情報１１００において、分析対象外のレセプト群にのみ存在する項目の有無判定処理１２０３及び重み付け処理１２１３を実施する例を説明する。

分析対象外のレセプト群にのみ存在する項目の有無判定処理１２０３は、分析対象のレセプト中で、指定するカテゴリ変数である審査結果が「査定」のレセプトには出現せず、審査結果が「請求通り」のレセプトには出現する項目を探索する。図１１のレセプト整形情報１１００において、審査結果が「請求通り」のレセプトは検索番号２０１が「Ｋ０００２」及び「Ｋ０００３」の２件を除く９８件が該当する。

換言すれば、特徴量計算部１２２は、分析の条件である審査結果９０１が「査定」に該当しないレセプトにのみ出現する項目の特徴量に対して重み付け処理１２１３を実施する。

上記２件には含まれず、他の９８件には含まれる項目を探索すると、傷病名コード「Ｄ１０００」及び診療行為コード「Ｓ２０００」が該当する。審査結果が「請求通り」で、傷病名コードＤ１０００を含むレセプトは検索番号Ｋ０００１を含む３件存在する。また、診療行為コード「Ｓ２０００」を含むレセプトは検索番号「Ｋ０００４」を含む４件存在する。

重み付け処理１２１２で、重みの値は上記式（１）を使用すると、分析対象のレセプトが１００件で、傷病名コード「Ｄ１０００」及び診療行為コード「Ｓ２０００」に関して、条件に該当するレセプトはそれぞれ４件のため、重みの値は「１００／４」、すなわち「２５」となる。

以上の処理により、各レセプトのそれぞれの項目に対して、重み付け処理１２１１、１２１２及び１２１３で得られた重みの値が特徴量に乗算されて、図１３に示すような特徴量が算出される。図１３では、特徴量の小数点第２位の値を四捨五入してまるめているが、まるめ方は限定されない。

上記では指定されたカテゴリ変数である審査結果９０１の要素を「査定」として処理を行っている例を示したが、指定されたカテゴリ変数の要素や、指定されたカテゴリ変数の要素の数、指定されたカテゴリ変数及び指定するカテゴリ変数の数はこれに限定されない。

例えば、カテゴリ変数として審査結果９０１と、増減点事由９０２の複数の項目（フィールド）が指定され、分析対象とする条件を、審査結果が「査定」であることと、増減点事由９０２が「Ｂ」、「Ａ，Ｂ」又は「Ｂ，Ｃ」のいずれかであることを指定してもよい。

これにより、審査結果９０１が「査定」かつ、増減点事由９０２に「Ｂ」を含むレセプトを分析対象のレセプトとすることができ、そのような詳細な条件に該当するレセプトにおいて特徴的な要素に重みを与えることができる。

すなわち、カテゴリ変数としては、分析対象のデータ群であるレセプト整形情報９００から１以上の項目（フィールド）を分析対象の項目として設定し、当該項目の要素（値）を指定されていれば良い。なお、分析対象のカテゴリ変数の項目と要素は、予め設定しても良いし、データ分析装置１１０が入力部１１１から受け付けてもよい。

（出現頻度に係る重み計算処理）
出現頻度に係る重み計算処理１２０４は、各項目のデータが出現する頻度を集計し、各項目のＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ（ＩＤＦ）を計算し、ＩＤＦの値を各項目の重みとして与える。この処理により、どのデータにも共通して出現する項目は特徴量が小さくなるような重みを与え、反対に少数のデータにのみ出現するような項目が大きな特徴量を有するように重みを与えることができる。本実施例では、以下の式（３）のＩＤＦを用いる。

式（３）において、Ｄはデータ数を、ｄｆ（ｄ，ｔ）は項目ｔが出現するデータの数を表す。ただし、ＩＤＦの式は、同様の意味を含む式であれば、上記の式（３）に限定されない。例えば、同様の意味を含む式として以下の式（４）をＩＤＦとして考えることができる。

出現頻度に係る重み計算処理１２０４の過程で、分析者（データ分析支援システム１００の利用者）が分析に影響が無いと考える項目を削除することができる。例えば、大多数のデータにおいて出現する項目には特徴が無いと考えられるため、多くのデータにおいて出現することを表す出現頻度の閾値を事前に定めておき、出現頻度が定められた閾値よりも大きい項目が見つかった場合、特徴量計算部１２２は、該当項目を取り除くことができる。

また、各データにおける項目の出現頻度も特徴量として考慮する場合、上述のＩＤＦに加えて各データにおける項目の出現頻度を表すＴｅｒｍＦｒｅｑｕｅｎｃｙ（ＴＦ）を重みとして加えることができる。

例えば、各データにおいて項目が出現する回数をＴＦとして用いることができるが、同様の意味を含む式を使用することができ、これに限定されない。

また、ＩＤＦの代わりにＴＦを重みとして与えてもよい。なお、ＩＤＦにさらにＴＦを重みとして加えることは、ＩＤＦの代わりにＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ（ＴＦＩＤＦ）を重みとして加えることと同意である。ＴＦＩＤＦは次の式（５）で表すことができる。

分析対象のレセプト群に共通する項目の有無判定処理１２０１、分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２、分析対象外のレセプト群にのみ存在する項目の有無判定処理１２０３及び出現頻度に係る重み計算処理１２０４を実施する順序は図１２の順序に限定されない。

例えば、特徴量計算部１２２は、分析対象のレセプト群に共通する項目の有無判定処理１２０１の前に分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２を行ってもよく、また分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２の前に分析対象外のレセプト群にのみ存在する項目の有無判定処理１２０３が行われてもよい。

また、分析対象のレセプト群に共通する項目の有無判定処理１２０１と、分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２の間に出現頻度に係る重み計算処理１２０４を行ってもよい。また、出現頻度に係る重み計算処理１２０４を行わなくてもよい。

また、重み付け処理１２１１、１２１２及び１２１３は、図１２に示している項目の有無判定処理１２０１、１２０２、１２０３のそれぞれの直後に行うことに限定されず、各判定処理を実行してから正規化処理を行うまでの所定のタイミングで実行してもよい。例えば、項目の有無判定処理１２０１、１２０２、１２０３を実行した後、重みを与える処理１２１１、１２１２、１２１３をまとめて実行してもよい。

なお、本実施例では、各データ（レセプト）の特徴量に重み付け処理を行う例を示したが、ベクトルに対して重み付け処理を行ってもよい。

（正規化処理）
正規化処理１２０５は、異なる特徴量を１つの尺度にまとめ、比較を容易にするために行う。本実施例では、データ（項目）の特徴量をベクトルとして見立て、各データベクトルのノルムを１にする、すなわち単位ベクトル化するＬ２正則化を行う例を示す。

正規化処理は、周知または公知の正規化手法を用いてもよく、Ｌ２正則化に限定されない。例えば、正規化処理において、特徴量の平均を０、標準偏差が１になるような処理を行うｚ−ｓｃｏｒｅｎｏｒｍａｌｉｚａｔｉｏｎを行ってもよく、また、最小値を０とし、最大値を１となるような処理を行うｍｉｎ−ｍａｘｎｏｒｍａｌｉｚａｔｉｏｎにより正規化を行ってもよい。また、正規化処理を行わなくてもよい。

正規化処理を行う場合は、当該処理の後に特徴量が変化することがないようにするため、分析対象のレセプト群に共通する項目の有無判定処理１２０１、分析対象のレセプト群にのみ存在する項目の有無判定処理１２０２、分析対象外のレセプト群にのみ存在する項目の有無判定処理１２０３及び出現頻度に係る重み計算処理１２０４のいずれの処理よりも後に行う必要がある。

＜類似度情報計算処理の詳細＞
以下では、類似度情報計算部１２３が行う処理である類似度情報計算処理について説明する。

類似度情報計算処理では、重み付け処理１２００で重み付けが行われた各レセプトの特徴量を一つのベクトルとして扱うことで、各ベクトル間の類似度、すなわち各レセプト間の類似度を算出する。

類似度情報計算部１２３は、図１３に示したように重み付け処理が完了したレセプト整形情報１３００を読み込んで、各項目（１３０１〜１３０８）の数をベクトルの次元数とし、各項目の値から多次元のベクトルを算出し、ベクトル間の類似度を算出する。

類似度の定義は周知または公知のものを使用してもよい。例えば、コサイン類似度を類似度として使用することができる。また、特徴量の距離尺度を非類似度として扱うことで、類似度を算出することもできる。例えば、各レセプト間の特徴量のユークリッド距離を計算し、距離が小さいほど類似度が高いとして扱うことができる。

本実施例では、類似度情報としてコサイン類似度を扱い、各レセプト間の特徴量のコサイン類似度を類似度情報として類似度情報計算部１２３が算出する。図１４は、分析対象のレセプト同士の距離を表す類似度行列１４００の例である。

類似度行列１４００は縦軸及び横軸に検索番号（２０１）が記載されており、行中の数値は縦軸の検索番号に該当するレセプトと、横軸の検索番号に該当するレセプト間の距離を表す。同じ検索番号のセルは、同じレセプトであることを示すため「−」が記載されている。

類似度行列の構成は図１４のものに限定されない。例えば、縦軸がＫ０００１で横軸がＫ０００２の数値と、縦軸がＫ０００２で横軸がＫ０００１の数値は、ともに検索番号Ｋ０００１のレセプトと同Ｋ０００２のレセプトのコサイン類似度を表すことから、記録する情報量を削減するため、図１４に示す類似度行列１４００の上三角行列だけを類似度情報として保持してもよい。

類似度情報計算部１２３で計算されたレセプト（レコードまたはエントリ）間の類似度情報は、類似度情報記憶部１３３に記録される。この際、類似度の計算に使用した類似度の定義を、類似度情報と共に類似度情報記憶部１３３に記録してもよい。

＜クラスタリング処理の詳細＞
クラスタリング部１２４は、類似度情報計算部１２３が計算したレセプト間の項目の類似度情報に基づいて、レセプトの併合過程の情報を算出し、階層型クラスタリングを実施し、生成されたクラスタに関するクラスタ情報を取得する。以下にクラスタリング部１２４がクラスタ情報を取得するまでに行う処理を説明する。なお、本処理にて取得されるクラスタ情報には、レセプト同士の併合過程情報を含むものとする。

まず、分析者は入力部１１１を操作して、階層型クラスタリング時のクラスタ間の距離測定方法を一つ指定する。距離測定方法として、例えばｗａｒｄ法、群平均法などが挙げられる。

クラスタリング部１２４は、指定された距離測定方法に基づいて、併合されるクラスタのペアおよび併合時の高さ（距離）を含むレセプトの併合過程情報（リンケージ情報）を取得する。

図１５にレセプト併合過程情報１５００の構成例を示す。レセプト併合過程情報１５００は、生成クラスタインデックス１５０１と、併合クラスタインデックスＡ１５０２と、併合クラスタインデックスＢ１５０３と、併合高さ１５０４と、生成クラスタに含まれるレセプト数１５０５と、で構成される行列である。

生成クラスタインデックス１５０１は、２つのクラスタが併合して生成されるクラスタのインデックス（識別番号）を示す。

併合クラスタインデックスＡ１５０２および併合クラスタインデックスＢ１５０３は、それぞれ併合されるクラスタのインデックスを示す。

併合高さ１５０４は、併合対象の２つのクラスタが併合されるときの高さ（距離）を示す。

生成クラスタに含まれるレセプト数１５０５は、２つのクラスタが併合されて生成されるクラスタに含まれるレセプト数を示す。

以下、レセプトの併合過程情報取得処理の流れを、図１５を用いて説明する。

まず、クラスタリング部１２４は、類似度行列１４００を参照し、類似度行列を構成する分析対象のレセプトを取得する。そして、クラスタリング部１２４は、それぞれのレセプトのみ含むクラスタを構成し、各クラスタにインデックスを割り当てる。インデックスは「１」から続く数値が割り当てられる。本実施例では、検索番号２０１が「Ｋ０００１」のレセプトにインデックス「１」を割り当て、同じく「Ｋ０００２」のレセプトにインデックス「２」を割り当て、以降も順番にインデックスを割り当てる。

次に、レセプト併合過程情報１５００の１行目において、分析対象のレセプト数に１を加算した数値を生成クラスタインデックス１５０１に登録する。本実施例において、分析対象のレセプト数は１００なので、１行目の生成クラスタインデックス１５０１には「１０１」が登録される。以降、各行の生成クラスタインデックス１５０１には「１０１」からの連番が登録される。

次に、クラスタリング部１２４は、類似度行列１４００を参照し、前述の距離測定方法に従ってクラスタ（レセプト）間の距離を計算する。

クラスタリング部１２４は、最も類似度の高いレセプトの組、すなわち最も距離の近いクラスタの組を探索し、その２つのクラスタのインデックスを取得する。ここで、距離は類似度の同じクラスタの組が複数存在する場合、最も番号の小さいインデックスが割り当てられているクラスタを含む組を探索し、その組に含まれる２つのクラスタのインデックスを取得する。

クラスタリング部１２４は、取得したクラスタインデックスのうち、小さいインデックスを併合クラスタインデックスＡ１５０２に登録し、大きいインデックスを併合クラスタインデックスＢ１５０３に登録する。

クラスタリング部１２４は、図１４のクラスタ類似度行列１４００を参照して計算した距離では、インデックスが５と６のクラスタ、同７と８のクラスタ、同９と１０のクラスタが距離が０、すなわち、同じ内容のレセプトであった。このうち、最も番号が小さいインデックスは５のため、インデックス５および６を取得し、レセプト併合過程情報１５００の１行目の併合クラスタインデックスＡ１５０２に「５」を登録し、併合クラスタインデックスＢ１５０３に「６」を登録する。

また、クラスタリング部１２４は、インデックスを取得した２つのクラスタ間の距離を、併合高さ１５０４に登録する。クラスタリング部１２４は、インデックスが５と６のクラスタ間の距離は０のため、レセプト併合過程情報１５００の１行目の併合高さ１５０４には「０」が登録される。

さらに、クラスタリング部１２４は、併合対象の２つのクラスタに含まれるレセプト数を数え、その合計数を生成クラスタに含まれるレセプト数１５０５に登録する。インデックスが５および６のクラスタにはそれぞれレセプトが１件ずつ含まれるため、レセプト併合過程情報１５００の１行目の生成クラスタに含まれるレセプト数１５０５には合計数である「２」が登録される。

クラスタリング部１２４は、以上の処理を、クラスタ数が１になるまで行い、レセプト併合過程情報１５００を取得する。

なお、レセプト併合過程情報１５００の構成は図１５に示すものに限定されない。例えば、生成クラスタに含まれるレセプト数１５０５が含まれなくてもよい。また、処理の過程も上記のものに限定されない。

また、階層型クラスタリングにおいて、明示的にクラスタを分割する必要がある場合、分析者は分割条件を満たす所定の値を閾値として設定する。分割条件は、クラスタに属するレセプト数や、クラスタ内の査定レセプト混入率を設定してもよいが、これに限定されない。例えば、分析者は生成されるクラスタに含まれるレセプト数が１０以上かつ１００以下であるように閾値を設定しても良い。

クラスタリング部１２４は、指定された閾値と、前述の処理により取得したレセプト併合過程情報に基づいて、所定の閾値の高さでレセプト群を分割し、各分割レセプト群でクラスタを構成してもよい。この処理により、査定レセプトのみで構成されるクラスタ、査定のないレセプト（以下、「請求通りレセプト」と表現する）のみで構成されるクラスタと、「査定」のレセプトと「請求通りレセプト」が混在するクラスタの３種類が構成される。また、クラスタリング部１２４は、各クラスタに対してはクラスタ識別番号を設定する。これにより、各レセプトが属するクラスタ識別番号の対応付け情報が取得できる。

図１６に、レセプト−クラスタ対応表１６００の構成例を示す。レセプト−クラスタ対応表１６００は、検索番号２０１と、クラスタインデックス１５０１を構成要素として含む。

クラスタインデックス１５０１は、指定された閾値でクラスタを分割した場合に検索番号２０１のレセプトが含まれるクラスタのインデックス（識別番号）を示す。

以下に、図１６を用いて、レセプト−クラスタ対応表１６００の構成方法を示す。分析者は、クラスタを分割する閾値として「１」を指定する。

クラスタリング部１２４は、レセプト併合過程情報１５００を参照し、閾値より大きい併合過程（併合高さ１５０４）を分割節として取得する。クラスタリング部１２４は、次に、分析対象のレセプトの検索番号を１件選択する。

クラスタリング部１２４は、該当する検索番号のレセプトの併合過程を、前述の分割節に到達するまでたどる。クラスタリング部１２４は、たどる過程で、該当レセプトが属するクラスタインデックスを保持し、属するクラスタが併合された場合、保持しているクラスタインデックスを併合後のクラスタインデックス、すなわち生成クラスタインデックス１５０１のものに更新する。

そして、クラスタリング部１２４は、分割節に到達した際、検索番号２０１に検索番号を登録し、その時点で保持しているクラスタインデックスをクラスタインデックス１５０１に登録する。

クラスタリング部１２４は、以上の処理を、分析対象のすべてのレセプトの検索番号に対して行う。

なお、レセプト−クラスタ対応表１６００の構成は図１６のものに限定されず、要素を追加してもよい。また、レセプト−クラスタ対応表１６００を取得する処理は上記のものに限定されない。例えば、分割節で併合クラスタインデックスＡ１５０２および併合クラスタインデックスＢ１５０３のクラスタインデックスを保持しておき、クラスタに含まれるレセプト数が１件になるまで併合過程を分割方向にたどることで、レセプトの検索番号を取得しても良い。

また、クラスタインデックスはレセプト併合過程情報１５００に記録されたものを用いず、新たな識別番号を割り当ててもよい。レセプト併合過程情報１５００及びレセプト−クラスタ対応表１６００は、クラスタ情報記憶部１３４に記憶される。

＜可視化処理＞
図１７は、ヒートマップ及び樹状図出力１７００の例を示す図である。ヒートマップ及び樹状図出力１７００は、可視化部１２５によって出力部１１２へ出力される画面イメージである。

図１７を用いて、可視化部１２５の処理を説明する。なお、図１４は分析対象としたレセプト１００件のうち、なお、ヒートマップ及び樹状図出力１７００に記載された各要素の配置の一例であり、異なる場所に配置されても良い。また、図１４に記載されている要素が削除されても良く、新たに要素が追加されても良い。また、図１７では、データ群やクラスタに関する情報を表示してもよい。

例えば、可視化部１２５が、各レセプトが属するクラスタのクラスタインデックスを図１７の画面に表示してもよい。また、可視化部１２５が、クラスタの査定割合を示す情報を図１７に表示しても良い。また、可視化部１２５は、クラスタに含まれているレセプトの項目情報を表示してもよい。

可視化部１２５は、配置処理、ヒートマップ表示処理、樹状図表示処理、対象指定可視化処理を行う。これらの処理について下記で説明する。ヒートマップ表示処理、樹状図表示処理はこの順で行うことに限定されず、どのような順序で行ってもよい。

（配置処理）
配置処理では、可視化部１２５が、類似度情報計算部１２３により得られた各レセプト間の類似度情報に基づき、ヒートマップ及び樹状図を表示する際に、検索番号軸１７０１の各レセプトを表す検索番号の並びを、レセプト間の類似度が大きいレセプトが表示軸上で近い位置に配置されるように変更する。これにより、分析者は類似するレセプト同士の関係を識別することを容易にする。

図１７では、検索番号が「Ｋ０００２」と「Ｋ０００３」、及び「Ｋ０００１」と「Ｋ０００４」は類似度が大きく（距離が小さく）、一方で「Ｋ０００２」と「Ｋ０００３」は、「Ｋ０００１」と「Ｋ０００４」との類似度が小さい（距離が大きい）。

また、図１７において、項目軸１７０２に表示する各項目は図中左から、傷病名コード（Ｄ１０００〜Ｄ３０００）、診療行為コード（Ｓ１０００〜Ｓ４０００）、医薬品コード（Ｉ１０００〜Ｉ４０００）、特定器材コード（Ｔ１０００〜Ｔ３０００）の順で、かつ各コードの番号が小さい順に配置されている。

項目軸１７０２に表示される順序は上記のものに限定されず、可視化部１２５が、所定の順序で配置してよい。例えば、重み付け処理後のレセプト整形情報１３００において、可視化部１２５が特徴量が０の要素を除く各項目の特徴量の平均が大きい順に配置しても良い。このような並びの場合、各データの類似に関して、どの項目がより大きな特徴を有するかを分析者が識別することが容易になる。

（ヒートマップ表示処理）
ヒートマップ表示処理では、重み付け処理１２００の各重み付け処理により特徴量の重み付けが行われた重み付け処理後のレセプト整形情報１３００に基づき、可視化部１２５が各レセプトの特徴量をヒートマップで表現、可視化する。

図１７において、ヒートマップは、各レセプトの項目の特徴量に応じて、対応するタイルの色の濃淡が異なり、大きな特徴量の場合は濃い色で表現され、小さな特徴量の場合は薄い色で表現されている。

特徴量の大きさの表現は上記の方法に限定されず、他の表現を用いてもよい。例えば、項目の有無が重要な意味を含むと考え、各項目の特徴量を０の場合と、０よりも大きい場合の２つに分類し、ヒートマップでそれぞれの分類毎に色を割り当ててもよく、あるいは特徴量を複数の代表的な離散値に置き換え、各離散値毎に色を割り当ててもよい。

また、なお、本実施例のヒートマップでは、特徴量の違いを視覚的に表現する手法は色の濃淡に限定されず、所望の視覚的表現を用いてもよい。例えば、特徴量の大きさに応じた複数の色を使用してもよく、あるいは特徴量の大きさに応じて塗りつぶしの模様を使用してもよく、あるいは特徴量の大きさに応じて塗りつぶされる領域の大きさを変化させてもよい。

（樹状図表示処理）
樹状図表示処理では、類似度情報計算部１２３により得られた各レセプト間の類似度情報及びクラスタリング部１２４により得られたクラスタ情報に基づき、可視化部１２５は、各レセプトがクラスタに併合していく過程を表現する樹状図を生成して、可視化する。

図１７において、樹状図１７０４はヒートマップ１７０３の左側に表示される。樹状図１７０４の末端（右端）はヒートマップ１７０３に接続されており、検索番号軸１７０１をヒートマップ１７０３と共有している。

樹状図１７０４の高さ方向（図１７左方向）の軸は２つの枝、すなわちクラスタが併合するリンケージの高さ（距離）を表す。なお、樹状図１７０４の高さ方向の軸はリンケージの高さに限定されない。例えば、各クラスタが併合する順序を表現してもよい。

また、分析者がクラスタリング時にクラスタを分割する高さの閾値１７０５を指定する場合、どの高さでクラスタが分割されているかを把握しやすくするため、樹状図１７０４においてその閾値１７０５を可視化してもよい。例えば、図１７では樹状図１４０４の２番目に高いリンケージより低い位置に閾値１７０５を指定しており、その閾値１７０５の高さを点線で表示している。

この場合、クラスタは図１７において上４件のレセプトを含むクラスタ１（１７０６）と、中央２件のレセプトを含むクラスタ２（１７０７）と、下４件のレセプトを含むクラスタ３（１７０８）に分割される。

閾値１７０５の可視化方法は上記の方法に限定されない。例えば、樹状図１７０４において、閾値より高さの低い部分を、生成されるクラスタ毎に色を分けてもよく、樹状図１７０４において閾値より高い部分を表示しないようにしてもよい。

（強調処理）
強調処理は、検索番号軸１７０１、項目軸１７０２、ヒートマップ１７０３及び樹状図１７０４に関して、それぞれの特定の要素を他の要素と識別しやすくするため、特定の要素（例えば、識別子）に対して他の要素とは異なる書式を設定して視覚的表現を行う。

図１７中では検索番号軸１７０１において、審査結果が「査定」のレセプト、すなわち検索番号「Ｋ０００２」及び「Ｋ０００３」に関して、検索番号の横に「×」印を付け、審査結果が「査定」ではないレセプトと区別している。

これにより、指定されたカテゴリ変数の要素に該当するデータと、該当しないデータの識別を容易にすることができる。区別のために行われる表現は上記の手法に限定されず、色、形、動き等、任意の視覚的表現を用いて良い。例えば、査定有無の分類毎に、検索番号やヒートマップの色を分けても良い。または、査定レセプトまたは査定レセプトを含むクラスタを点滅させるアニメーション効果を付けても良い。

（対象指定可視化処理）
対象指定可視化処理は、分析者が分析対象のレセプト群から可視化対象として指定する一部のレセプト群に関して、該当レセプト群のみを可視化する処理である。さらに可視化対象のレセプト群から一部を指定して可視化してもよい。これにより、分析者は注目対象のレセプト群を少しずつ絞り込みつつ、各レセプトの内容の比較を行うことができる。以下に、対象指定可視化処理の例を示す。

分析者は、入力部１１１を介して分析対象のレセプトのうち、任意の数のレセプトの検索番号を指定し、データ分析装置１１０が当該指定を受け付ける。例えば、分析者は、クラスタリングの結果として生成されたクラスタの一つに含まれるレセプト群の検索番号を指定してもよく、または、分析対象のレセプトのうち、診療行為コード「Ｓ２０００」を含むレセプト群の検索番号を指定してもよい。

可視化部１２５は、指定された検索番号に基づき、対象指定可視化処理で分析対象のレセプトから、指定された検索番号のレセプトが含まれているか否かを判定し、該当検索番号のレセプトが分析対象のレセプトに含まれている場合、該当レセプトを抽出する。

可視化部１２５は、以上の処理を指定されたすべての検索番号に対して行う。次に、可視化部１２５は、存在が判定された検索番号のレセプトの情報を、類似度情報計算部１２３により得られた各レセプト間の類似度情報及びクラスタリング部１２４により得られたクラスタ情報から抽出する。

そして、可視化部１２５は、抽出された情報に基づいて、配置処理、ヒートマップ表示処理、樹状図表示処理及び強調処理を行うことで、指定の検索番号のレセプトの情報が表示されるヒートマップ及び樹状図出力１７００を得ることができる。

これらのレセプト間類似度情報及びクラスタ情報において、いずれのレセプトにも出現しない項目が存在する場合、可視化部１２５は、該当項目を表示対象から除外してもよい。これにより、レセプトの特徴と関係のない項目を除外し、分析者が注目したいレセプト及び項目に絞り込んで比較することを可能にする。

以上の可視化処理及び可視化された情報を用いて、分析者は、審査結果が「請求通り」のレセプトと、「査定」のレセプトが混在する分析対象のレセプト群において、審査結果が同じで内容が類似しているレセプト群を見つけ、コンピュータチェックルールを検討する流れの例を以下に示す。

まず、分析者は、データ分析支援システム１００を用いて、分析対象のレセプトをクラスタリングし、表示されたヒートマップ及び樹状図出力を確認する。ヒートマップ及び樹状図出力に出力されている結果から、分析者は視覚的に強調されて表示されている査定レセプトがまとまっている部分を探す。

分析者は「査定」のレセプトがまとまっているが、少数の「請求通り」のレセプトが含まれるクラスタを見つけた場合、対象クラスタのインデックスから、含まれているレセプトの検索番号を確認し、対象指定可視化処理を用いて該当レセプト群に関するヒートマップ及び樹状図を出力し、同様にして確認する。

データ分析装置１１０ではヒートマップと樹状図の表示と絞り込みを繰り返し、数件から数十件の量で構成された診療内容が似ており、かつ審査結果が「査定」のレセプトのまとまりを抽出する。

データ分析装置１１０で抽出されたレセプト群は、そのレセプト群が含む項目の特徴量も参考にしつつ、分析者やルール化を行う専門家によって、詳細に１件ずつ内容を比較し、該当レセプト群において行われている医学的に望ましくない傷病と診療行為の組み合わせを洗い出し、その傷病名コードや診療行為コードの組み合わせを「査定と判断する」コンピュータチェックルールに登録する。
また、クラスタに含まれるレセプトがすべて「査定」のレセプトでない場合であっても、事前に分析者や専門家でルール化検討材料の対象とする査定レセプト割合を決めておくことで、定めた割合以上の「査定」のレセプト割合のクラスタ（レセプト群）を見つけて、分析者や専門家により内容を確認してコンピュータチェックルールの構築を検討してもよい。

一方で、「請求通り」のレセプトのクラスタから、審査員が確認する必要なく「請求通り」と判断可能なレセプトを見つけるため、事前に「請求通り」のレセプト割合を定めておき、その割合以下の査定レセプトが含まれる、診療内容が類似したレセプト群で構成されたクラスタを抽出してもよい。抽出されたクラスタに含まれるレセプト群は、上記の査定レセプト群と同様にして分析者及び審査員により内容を精査し、問題がないと判断された場合に、そのレセプト群の診療内容を「請求通りと判断する」コンピュータチェックルールとして登録しても良い。

＜まとめ＞
図１８は、データ分析支援システム１００で行われる全体的な処理の一例を示すフローチャートである。この処理は、上述した各処理の時系列的な手順の一例を示す。

まず、データ整形部１２１は、レセプト基本情報２００、傷病名情報３００、診療行為情報４００、医薬品情報５００、特定器材情報６００及び審査結果情報８００からなるデータ群を読み込む（１８０１）。

次に、データ整形部１２１は、検索番号２０１をキーとして、読み込んだデータ群から項目を統合して、レセプト整形情報９００を生成する（１８０２）。

データ整形部１２１は、レセプト整形情報９００のうちデータ分析に利用するデータ（レセプト）を抽出するためのカテゴリ変数とする項目と、カテゴリ変数の要素を、分析の条件として指定する（１８０３）。

なお、本実施例では、カテゴリ変数及び要素の指定は、予め設定された情報を使用する。例えば、カテゴリ変数の項目が審査結果９０１で、要素が「査定」が分析の条件として設定される。また、入力部１１１からカテゴリ変数及び要素の指定を受け付けてもよい。

次に、データ整形部１２１は、生成されたレセプト整形情報９００について、上記（ｉ）で示したようにレコード単位で集計処理を行って、審査結果９０１を設定してから傷病名等の統合を行う。データ整形部１２１は、集計処理によって出現回数がカウントされた各項目の値について２値化を実施して、図１１に示すレセプト整形情報１１００を生成する（１８０４）。２値化された値が各項目の特徴量となる。

次に、特徴量計算部１２２は、２値化されたレセプト整形情報１１００について、各データ毎に２値化された項目からベクトルを算出し、当該ベクトルに対して重み付け処理を実施する（１８０５）。

この、重み付け処理では、図１２に示したように、特徴量計算部１２２が、カテゴリ変数に指定された項目（審査結果９０１）及び要素（「査定」）の条件と一致するデータ間で、値が出現する項目のうち、共通する項目について所定の重み（Ｗ１）を付与する。

また、特徴量計算部１２２は、カテゴリ変数の条件が一致するデータ（レコード）群のみに出現する項目について所定の重み（Ｗ２）を付与する。なお、特徴量計算部１２２は、カテゴリ変数の条件に一致しないデータ群のみに出現する項目について所定の重み（Ｗ３）を付与する。

さらに、特徴量計算部１２２は、各項目のデータが出現する頻度を集計し、各項目のＩＤＦの値を各項目の重みとして与える。

そして、類似度情報計算部１２３は、上記の処理で当てられた重みを、２値化されたレセプト整形情報１３００の各項目の値に乗じてレセプト整形情報１３００を生成してから、各レコードのベクトルを算出し、各ベクトル間の類似度、すなわち各レセプト間の類似度を算出する（１８０６）。ベクトル間の類似度は、上述したようにコサイン類似度やユークリッド距離を用いて算出され、類似度の大きさに応じた類似性が類似度行列１４００として算出される。

クラスタリング部１２４は、類似度行列１４００を参照して、類似度の大きい順にレセプト（レセプト整形情報１３００の検索番号２０１）をクラスタリングする（１８０７）。クラスタリングの際には、クラスタリング部１２４がクラスタ毎に識別子を付与して、クラスタの内容を示すレセプト併合過程情報１５００を生成する。

次に、可視化部１２５は、レセプト併合過程情報１５００とレセプト整形情報１３００から、検索番号２０１の軸と、レセプト整形情報１３００の項目の軸を有する２次元マップをレセプトのクラスタ単位で生成し、画面（１７００）として出力部１１２に表示する。この２次元マップは、クラスタ内のレセプトの各項目がヒートマップで表示され、各項目の特徴量の大きさに応じた紋様のタイルが含まれる。

可視化部１２５は、レセプト併合過程情報１５００からクラスタ間の関係を示す樹状図１７０４を生成して、画面（１７００）に出力する。

以上の処理によって、分析の条件が一致し（同じ審査結果かつ同様の内容）のレセプトを同じクラスタとしてまとめることが可能となり、審査の自動化に向けたコンピュータのチェックルール構築支援のために、参考とするレセプトの絞込みを実現することができる。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に記載したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加、削除、又は置換のいずれもが、単独で、又は組み合わせても適用可能である。

また、上記の各構成、機能、処理部、及び処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、及び機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。

１００データ分析支援システム
１１０データ分析装置
１１１入力部
１１２出力部
１１３記憶媒体
１１４メモリ
１１５演算装置
１２１データ整形部
１２２特徴量計算部
１２３類似度情報計算部
１２４クラスタリング部
１２５可視化部
１３０データベース
１３１データ記憶部
１３２整形情報記憶部
１３３類似度情報記憶部
１３４クラスタ情報記憶部

Claims

プロセッサとメモリを有する計算機が、データの分析を行う分析方法であって、
前記計算機が、１つのデータに複数の項目と、当該項目の要素を含む分析対象のデータ群を受け付ける第１のステップと、
前記計算機が、分析条件の前記項目と、前記要素を受け付ける第２のステップと、
前記計算機が、前記データの各項目について特徴量を算出し、当該特徴量からベクトルを算出する第３のステップと、
前記計算機が、前記データの各項目について特徴量を算出し、当該特徴量から各データのベクトルを算出する第４のステップと、
前記計算機が、前記ベクトルに対して重み付けを行う第５のステップと、
前記計算機が、前記重みを付与したベクトルについてクラスタリングを行う第６のステップと、を含み、
前記第５のステップは、
前記分析条件に該当するデータに共通して出現する項目の要素に対して重み付けを実施し、
前記分析条件に該当するデータにのみ出現する項目の要素に対して重み付けを実施し、
前記分析条件に該当するデータに出現しない項目の要素に対して重み付けを実施することを特徴とする分析方法。
請求項１に記載の分析方法であって、
前記重み付けを実施するステップは、
分析対象のデータの数と、前記分析条件に該当するデータの数の比を重みとし、または、前記分析条件に該当しないデータの数と、前記分析条件に該当するデータの数の比を重みとすることを特徴とする分析方法。
請求項１または請求項２に記載の分析方法であって、
前記データは、
患者の傷病名情報と、実施された医療行為情報と、使用された医薬品情報と、使用された特定器材情報のいずれか一つ以上を含むレセプトの情報であり、
前記分析条件は、
前記レセプトの項目に審査結果を含むことを特徴とする分析方法。
請求項３に記載の分析方法であって、
前記分析条件は、
前記レセプトの項目に審査結果と事由を含み、当該事由の要素は、１以上の要素を含むことを特徴とする分析方法。
請求項２に記載の分析方法であって、
前記計算機が、前記クラスタリングの結果から、第１の軸に前記データの識別子を配置し、第２の軸に各項目を配置した２次元グラフと、前記データとクラスの関係を示す樹状図を生成する第６のステップを、さらに含むことを特徴とする分析方法。
請求項５に記載の分析方法であって、
前記第６のステップは、
前記分析条件に該当する前記識別子について予め設定した強調表示の書式を設定することを特徴とする分析方法。
請求項５または請求項６に記載の分析方法であって、
前記データは、
患者の傷病名情報と、実施された医療行為情報と、使用された医薬品情報と、使用された特定器材情報のいずれか一つ以上を含むレセプトの情報であり、
前記分析条件は、
前記レセプトの項目に審査結果を含むことを特徴とする分析方法。
プロセッサと、メモリとを有し、データの分析を行う分析装置であって、
１つのデータに複数の項目と、当該項目の要素を含む分析対象のデータ群を受け付けて、分析条件の前記項目と、前記要素を受け付けるデータ整形部と、
前記データの各項目について特徴量を算出し、当該特徴量からベクトルを算出して、前記ベクトルに対して重み付けを行う特徴量計算部と、
前記重みを付与したベクトルについてクラスタリングを行うクラスタリング部と、を有し、
前記特徴量計算部は、
前記分析条件に該当するデータに共通して出現する項目の要素に対して重み付けを実施し、前記分析条件に該当するデータにのみ出現する項目の要素に対して重み付けを実施し、前記分析条件に該当するデータに出現しない項目の要素に対して重み付けを実施することを特徴とする分析装置。
プロセッサとメモリを有する計算機で、データを分析させるためのプログラムであって、
１つのデータに複数の項目と、当該項目の要素を含む分析対象のデータ群を受け付ける第１のステップと、
分析条件の前記項目と、前記要素を受け付ける第２のステップと、
前記データの各項目について特徴量を算出し、当該特徴量からベクトルを算出する第３のステップと、
前記データの各項目について特徴量を算出し、当該特徴量から各データのベクトルを算出する第４のステップと、
前記ベクトルに対して重み付けを行う第５のステップと、
前記重みを付与したベクトルについてクラスタリングを行う第６のステップと、を含み、
前記第５のステップは、
前記分析条件に該当するデータに共通して出現する項目の要素に対して重み付けを実施し、前記分析条件に該当するデータにのみ出現する項目の要素に対して重み付けを実施し、前記分析条件に該当するデータに出現しない項目の要素に対して重み付けを実施することを前記計算機に実行させるためのプログラム。