JP2022546192A

JP2022546192A - 医学データの検証方法

Info

Publication number: JP2022546192A
Application number: JP2022503420A
Authority: JP
Inventors: 姚娟娟
Original assignee: 上海明品医学数拠科技有限公司
Priority date: 2019-07-17
Filing date: 2020-07-17
Publication date: 2022-11-04
Anticipated expiration: 2040-07-17
Also published as: US20220207242A1; CN110491519A; DE112020003412T5; CN110491519B; JP7358612B2; US11449680B2; WO2021008601A1

Abstract

複数の情報要素と複数のデリミタとを含む医学データの検証方法であって、医学データと複数のパターンで構成された標準ライブラリとを照合し、照合表現式は、［＼ｓ｜＼Ｓ］［ｎｕｍｂｅｒ／ｓｅｑｕｅｎｃｅ／ｒｅｌａｔｉｏｎ］＆［＼ｂ｜＼Ｂ］であるステップａ（Ｓ１０１）と、ステップａの照合結果に基づいて医学データが合格であるか否かを判定するステップｂ（Ｓ１０２）とを含むことを特徴とする医学データの検証方法である。まず標準化の標準ライブラリを構築し、医学データと標準ライブラリとの非初期境界、初期境界、情報の数、情報順序、意味関係の数、文字境界及び非文字境界を照合することによって照合結果を取得し、そして照合後の結果に従って医学データが要求に適合するか否かを判断する。【選択図】図１

Description

本発明は、ビッグデータ処理の分野に関し、特に、医学データの品質管理の方法に対するものであって、具体的には、医学データの検証方法に関する。

ビッグデータ時代の到来に伴い、異なるタイプの各種データが収集及び処理されており、最も特別なデータとして、医学データには、患者データ、医者データ、疾病データ、症状データ、検査データ、診断データ、治療データ、薬物データなどといった多くの変数が含まれる。医学活動自体から見ると、最も大きな区別は、医学行為の間に明瞭な論理関係があるため、医学データの間に明瞭な意味関係もあるとともに、一般的に医学データが医者または患者により入力または生成されるものであり、これらのデータの間の意味関係が医者の決定及び対応する治療法と疾病の進行状況との相互関係を反映することができることにある。

医学データの相互作用の過程について、その顕著な特徴は、相互作用に関与する端末対象がしばしば複数あり、且つ各端末がいずれも自分の独立な要求を有し、それがデータの品質への要求、特にデータ構造への要求がそれぞれ異なり、伝統的なデータの相互作用の理論に基づき、複数の端末の相互作用の高い論理性の要求を実現するためには、まず医学データの構造を統一する必要があることにある。

従来の人工知能分野に用いられる医学データについて、一つはＨＩＳシステムの診療録データを深掘ることによって生成されることであり、一般的に構造化情報抽出と称し、もう一つは別途モデリングを行って医療従事者が記入し直すことによって生成されることであり、二種類の方法はいずれも機械学習の品質要求に適合する基礎データを取得することができるが、二種類の方法はいずれも長い時間がかかり、コストが高い。

ビジネス運営の観点から考えると、上記二種類の基礎データの取得方法は、いずれも人工知能分野における国際の先頭企業からのものであり、この二種類の方法を採用する原因は、国外の医学データの希少性にある。我が国にとっては、我々が世界中の最も大きい人口の基数及び医療受診の延べ人数を有し、医学データの基礎の数が極めて大きいが、全体の品質にばらつきがあり、その上で、上記二種類の通常の方法で医学データを処理すると、我が国の国情に対して、そのコストがより高くなり、かかる時間がより長くなる。

このため、速く極めて大きい数の医学データを予め選別し、予め選別したデータの上で業界通用の手段に従って更なる処理を行うことができる、というアルゴリズムを掘り出すと、医学人工知能分野の発展のための堅実な基礎を定めることになる。

本発明の技術方案が解決しようとする技術的課題は、如何にして標準的且つ迅速に医学データを検証するかである。

上記の技術的課題を解決するために、本発明の技術方案は、医学データの検証方法を提供し、当該方法は、前記医学データが複数の情報要素と複数のデリミタとを含み、以下のステップａとステップｂとを含む。

ステップａにおいて、医学データと複数のパターンで構成された標準ライブラリとを照合し、照合表現式は、［＼ｓ｜＼Ｓ］［ｎｕｍｂｅｒ／ｓｅｑｕｅｎｃｅ／ｒｅｌａｔｉｏｎ］＆［＼ｂ｜＼Ｂ］（Ｓ１０１）であり、ここで、［］は一回の照合プロセスを表し、＼ｓは前記医学データの非初期境界と前記標準ライブラリの非初期境界との類似度を表し、＼Ｓは前記医学データの初期境界と前記標準ライブラリの初期境界との類似度を表し、ｎｕｍｂｅｒは前記医学データに含まれる情報要素の数と前記標準ライブラリに含まれるパターンの数との類似度を表し、ｓｅｑｕｅｎｃｅは複数の前記情報要素の順序と複数の前記パターンの順序との類似度を表し、ｒｅｌａｔｉｏｎは複数の前記情報要素の意味関係と複数の前記パターンの意味関係との類似度を表し、＆は一回または複数回の照合プロセスを表し、＼ｂは前記医学データの文字境界と前記標準ライブラリの文字境界との類似度を表し、＼Ｂは前記医学データの非文字境界と前記標準ライブラリの非文字境界との類似度を表し、｜は択一照合を表し、／は同時照合を表す。

ステップｂにおいて、ステップａの照合結果に基づいて前記医学データが合格であるか否かを判定する。

好ましくは、前記情報要素には値域制限があり、前記値域制限は前記情報要素の種類によって設定され、ステップａを実行するときに、前記医学データは単語分割処理が行われていない。

好ましくは、前記ステップａにおける照合表現式において、下記（１）式であり、ここで、ｎ_１は前記医学データの非初期境界の数を表し、ｓ_ｉは前記医学データの二つの非初期境界の最大距離を表し、ｓ´_ｉは前記医学データの非初期境界から前記標準ライブラリの非初期境界までの距離を表す。

・・・（１）

好ましくは、前記ステップａにおける照合表現式において、下記（２）式であり、ここで、ｎ_２は前記医学データの初期境界の数を表し、ｓ_ｉは前記医学データの二つの初期境界の最大距離を表し、ｓ´_ｉは前記医学データの初期境界から前記標準ライブラリの初期境界までの距離を表す。

・・・（２）

好ましくは、前記ステップａにおける照合表現式において、下記（３）式であり、ここで、Ｎｕｍ_ａは前記医学データに含まれる前記情報要素の数を表し、Ｎｕｍ_ｂは前記標準ライブラリに含まれる前記パターンの数を表す。

・・・（３）

好ましくは、前記ステップａにおける照合表現式において、下記（４）式であり、ここで、ｎ_３＝Ｎｕｍ_ａ－１であり、Ｎｕｍ_ａは前記医学データに含まれる前記情報要素の数を表し、Ｓｅｑ_ｉは隣り合う二つの前記情報要素の距離を表し、Ｓｅｑ´_ｉは隣り合う二つの前記パターンの距離を表す。

・・・（４）

好ましくは、前記ステップａにおける照合表現式において、下記（５）式であり、ここで、Ｒｅｌ_ａは複数の前記情報要素に含まれる意味関係の数を表し、Ｒｅｌ_ｂは複数の前記パターンに含まれる意味関係の数を表す。

・・・（５）

好ましくは、前記ステップａにおける照合表現式において、下記（６）式であり、ここで、ｎ_４は前記医学データの文字境界の数を表し、ｂ_ｉは前記医学データの二つの文字境界の最大距離を表し、ｂ´_ｉは前記医学データの文字境界から前記標準ライブラリの文字境界までの距離を表す。

・・・（６）

好ましくは、前記ステップａにおける照合表現式において、下記（７）式であり、ｎ_５は前記医学データの非文字境界の数を表し、Ｂ_ｉは前記医学データの二つの非文字境界の最大距離を表し、Ｂ´_ｉは前記医学データの非文字境界から前記標準ライブラリの非文字境界までの距離を表す。

・・・（７）

好ましくは、前記ステップｂは以下のステップｂ１とステップｂ２とを含む。

ステップｂ１において、下記（８）式という式によって前記医学データと前記標準ライブラリとの類似度を算出する。ここで、Ｃは前記医学データと前記標準ライブラリとの類似度を表し、ｃ_ｊは前記ステップａにおける各照合プロセスの類似度を表し、ｍはステップａにおける照合プロセスの数を表す。

・・・（８）

ステップｂ２において、前記Ｃ≦Ｃ_ｍｉｎであれば、前記医学データが合格であると判定する。ここで、Ｃ_ｍｉｎは設定された最小類似度の閾値である。

本発明はまず標準化の標準ライブラリを構築し、医学データと標準ライブラリとの非初期境界、初期境界、情報の数、情報順序、意味関係の数、文字境界及び非文字境界を照合することによって照合結果を取得し、そして照合後の結果に従って医学データが要求に適合するか否かを判断する。

本発明の具体的な実施形態の医学データの検証方法のプロセスチャートである。本発明の一つの実施例の異なる複数の照合プロセスの模式図である。本発明の一つの実施例の異なる複数の照合プロセスの模式図である。本発明の一つの実施例の異なる複数の照合プロセスの模式図である。本発明の一つの実施例の異なる複数の照合プロセスの模式図である。本発明の他の具体的な実施形態の医学データの検証方法プロセスチャートである。

図面を参照して非限定的な実施例につき述べた詳細な記載を閲覧することで、本発明のその他の特徴、目的及び利点が更に明らかとなる。
本発明の技術方案をより明瞭に示すために、以下に、図面を組み合わせて本発明につき更に説明する。

当業者は、医学データが通常ユーザ端末からのものであり、前記ユーザ端末は、手動入力または異なる検出手段と接続することによってデータを採取する端末設備と理解してもよい。例えば、手動入力または撮影自動認識の方式によってデータを入力するスマートフォンまたはタブレットであってもよく、または、例えば、開放ポートによってリアルタイムでデータを採取するバイタルセンサまたは医療検測装置とデータを共用するコンピューターであってもよい。より具体的には、基礎医学データが個体に関連するデータであり、複数の次元から理解することができる。医学データの生成方法から見ると、前記基礎医学データは、主に医者端データ及び患者端データに分けられる。医者端データが外来及び急診記録、入院記録、映像記録、実験室記録、投薬記録、手術記録、訪問観察記録などを含み、患者端データが個人の生活習慣、生活環境、家庭遺伝、家庭環境などを含む。基礎医学データの構成から見ると、基礎医学データは、（１）検査手段による測定数値、例えば体温、血圧、血酸素飽和度、化学検査値など、（２）機器が記録した信号、例えば心電図、脳電図など、（３）医学映像設備により生成された画像、例えばＸ線画像、ＣＴ画像及びＭＲＩ画像など、（４）テキスト形式で示されたレポート結果、例えば医者が自分の医学知識を組み合わせて出した測定数値、信号、画像に対する解釈及び医者が出した病理診断など、（５）陳述性のデータ、例えば医者が記録した主訴（患者が訴えた病状）、患者の診療録、（６）元データテキスト、例えば器官、薬物、疾病及び治療法の知識、医療設備のパラメーターなど、（７）社会特徴、例えば病院の機構情報、医者及び患者の個人情報などに分けられることができる。これらの異なる種類の基礎医学データは、構造及び含んでいる意味がそれぞれ異なるが、これらが相互に裏付けられ且つ相互に補充されることができ、いずれも特定の角度から医学情報の内容及び特徴を表現し、多様かつ相補的なデータ集合を構成する。

さらに、本発明において、前記医学データの内容自体は言語の論理での一貫性を求めず、前記医学データに対して、デリミタでのモジュール化記録を行い、即ち、各モジュールの内容は各医学データの内容であるが、複数の情報要素の間に医学上の意味関係があるべきであり、我が国の病院の過去の診療録の現状を組み合わせ、この種類のデータは、ＨＩＳシステムの最も記憶容量が大きいものであり、データ源の取得が便利である。勿論、ここ二年、国家衛生管理部門は、全国の病院で標準化電子診療録を推し進め、このような電子診療録のデータ自体が十分に構造化で、本発明の重点的に処理するデータではない。より具体的には、本発明の検証対象、つまり医学データが以下の特徴を備える。

１）データは、若干の構成（医学データ）であって、各構成の間の機能が互いにサポートされ、内容が独立である離散モジュールに分けられることができる。

２）各医学データは、明瞭な意味情報を有し、その内容が若干の医学連語である。

３）各医学データの間がデリミタに分割され、よくあるデリミタは、句読点であってもよいが、リターン記号、スペース、逐次番号、特殊文字などを含む非句読点であることが好ましい。

４）各医学データの内容表現に値域制限があり、前記値域制限が前記情報要素の種類に応じて設定され、即ち、前記医学データの内容は従属変数であり、前記情報要素の種類は独立変数である。具体的には、前記情報要素の種類は、前記医学データに対するタブ化設定であると理解されてもよく、例えば、前記医学データのタブが「神経内科」、「てんかん」、「症状」に設定され、それに応じて、前記医学データの内容は、医学上の神経内科のてんかん疾病に対応する症状の集合であり、即ち、前記医学データの内容の値域が上記範囲内に制限され、当業者は、前記医学データのタブの取得が非常に簡単なことで、過去の診療録が形成した科及び対応する医者によれば非常に簡単に位置を特定することができ、余分の複雑なアルゴリズムで前処理を行う必要がないことを理解し得る。また例えば、前記医学データのタブは、「神経内科」、「癲癇」、「投薬」に設定され、それに応じて、前記医学データの内容は、臨床上の神経内科のてんかん疾病に対応する投薬の集合である。

さらに、上記特徴を組み合わせ、前記医学データが検証される前に、前記医学データに単語分割処理を行う必要がない。具体的には、前記医学データの表現形式は、一般的にテキスト形式及びＷｅｂファイル形式の二種類があり、テキスト形式はよくある形式であり、Ｗｅｂファイル形式は医学データの単位で分割されてＷｅｂにアップロードされて形成される。従来技術において、医学データに処理を行う前に、対応の医学シソーラスを抽出し且つ医学データに単語分割処理を行う必要があり、通常の方法は対応の医学シソーラスをとしてテキストベクトルを構成することであり、このように形成したテキストベクトルが非常に大きく、計算量も多い。従来の技術改善案において、テキストベクトルの次元を削減するために、できるだけ少ない医学シソーラスでテキストベクトルを構築する必要があり、そうすると医学シソーラスの関連度を向上させる必要があり、関連度の向上に伴い、また重要性の並べ替えを導入する必要があり、最終的にこれにより単語分割のアルゴリズムがますます複雑になり、効率が向上する一方で確度が安定していない。本発明において、前記医学データの内容が簡潔且つ明瞭で、全部臨床医によるものであり、余分な修飾成分を含まず、実際の応用状況を組み合わせ、医学データの単語分割のステップを省略することができ、効率を向上させ、これは従来技術に使われていない方法である。

図１には本発明の具体的な実施形態の医学データの検証方法のプロセスチャートが示され、以下のステップを含む。

まず、ステップＳ１０１を実行し、前記医学データと複数のパターンで構成された標準ライブラリとを照合し、照合表現式は、［＼ｓ｜＼Ｓ］［ｎｕｍｂｅｒ／ｓｅｑｕｅｎｃｅ／ｒｅｌａｔｉｏｎ］＆［＼ｂ｜＼Ｂ］である。具体的には、［］は一回の照合プロセスを表し、＼ｓは前記医学データの非初期境界と前記標準ライブラリの非初期境界との類似度を表し、＼Ｓは前記医学データの初期境界と前記標準ライブラリの初期境界との類似度を表し、ｎｕｍｂｅｒは前記医学データに含まれる情報要素の数と前記標準ライブラリに含まれるパターンの数との類似度を表し、ｓｅｑｕｅｎｃｅは複数の前記情報要素の順序と複数の前記パターンの順序との類似度を表し、ｒｅｌａｔｉｏｎは複数の前記情報要素の意味関係と複数の前記パターンの意味関係との類似度を表し、＆は一回または複数回の照合プロセスを表し、＼ｂは前記医学データの文字境界と前記標準ライブラリの文字境界との類似度を表し、＼Ｂは前記医学データの非文字境界と前記標準ライブラリの非文字境界との類似度を表し、｜は択一照合を表し、／は同時照合を表す。

また、前記照合表現式を組み合わせ、［＼ｓ｜＼Ｓ］は前記医学データの非初期境界と前記標準ライブラリの非初期境界との類似度に対して照合を行うこと、または前記医学データの初期境界と前記標準ライブラリの初期境界との類似度に対して照合を行うこと、を表し、二者択一で照合を行えばよい。［ｎｕｍｂｅｒ／ｓｅｑｕｅｎｃｅ／ｒｅｌａｔｉｏｎ］＆［＼ｂ｜＼Ｂ］は、前記医学データに含まれる情報要素の数と前記標準ライブラリに含まれるパターンの数との類似度に対して照合を行うこと、または複数の前記情報要素の順序と複数の前記パターンの順序との類似度に対して照合を行うこと、または複数の前記情報要素の意味関係と前記複数のパターンの意味関係との類似度に対して照合を行うこと、を表し、三者択一で照合を行えばよい。［＼ｂ｜＼Ｂ］は、前記医学データの文字境界と前記標準ライブラリの文字境界との類似度に対して照合を行うこと、または前記医学データの非文字境界と前記標準ライブラリの非文字境界の類似度に対して照合を行うこと、を表し、二者択一で照合を行えばよい。

さらにまた、図２から５に示すように、［＼ｓ｜＼Ｓ］、［ｎｕｍｂｅｒ／ｓｅｑｕｅｎｃｅ／ｒｅｌａｔｉｏｎ］及び［＼ｂ｜＼Ｂ］は順次に行われてもよく、順序に従わずに任意のプロセスをランダムで起動してもよいが、各プロセスはいずれも実行される必要があるとともに、前記医学データの文字境界と前記標準ライブラリの文字境界との類似度に対して照合を行うこと、または前記医学データの非文字境界と前記標準ライブラリの非文字境界との類似度に対して照合を行うことが複数回実行されることができる。

当業者は、本発明が前記医学データと前記標準ライブラリとの照合範囲を限定しており、具体的にバイナリマッチングに従うことで完成し、その一は、前記医学データと前記標準ライブラリの構成自体とを照合することであり、情報要素の数、パターンの数、複数の情報要素の順序、複数のパターンの順序、複数の情報要素の意味関係の数、複数のパターンの意味関係の数を含み、その二は、前記医学データと前記標準ライブラリとを照合することである、ということを理解し得る。具体的には、前記標準ライブラリと前記医学データとの照合の要点が構成にあり、即ち、非初期境界、初期境界、文字境界及び非文字境界に注目する一方、前記標準ライブラリの内容及び前記医学データの内容自体が照合の要点ではない。より具体的には、意味関係の数を照合する必要があるため、前記医学データと前記標準ライブラリの文字境界及び非文字境界を構成する対応の連語の意味認識が必要である。

さらに、ステップＳ１０２を実行し、ステップＳ１０１の照合結果に基づいて前記医学データが合格であるか否かを判定する。当業者は、ステップＳ１０１が前記医学データと標準ライブラリとの類似度に対して照合を行うことであり、具体的には、前記類似度を算出するアルゴリズムは、例えば、医学データと標準ライブラリの自然長を判断することによって前記類似度を取得するユークリッド距離法や、共分散を医学データと標準ライブラリの標準偏差を割ることによって類似度を取得するピアソン相関係数法や、医学データと標準ライブラリのなす角の余弦値を算出することによって前記類似度を取得するコサイン距離法が挙げられることを理解し得る。好ましくは、コサイン距離法を採用して前記医学データと標準ライブラリとの類似度を判断し、その原理は、コサイン距離法が数値自体に敏感ではなく、それが二つの方向における一致性または差異性により注目し、即ち、医学データと標準ライブラリとの類似性を判断することは、同じ分野で判断する場合がより多く、それが医学データの類似性の判断に用いられることにより適合することにある。

さらに、前記ステップＳ１０１で得た照合結果は絶対値であり、前記医学データが合格である否かを判定することは、ステップＳ１０２で設定する必要がある標準である。例えば、一つの閾値を設定し、ステップＳ１０１で得た照合結果と前記閾値とを比較し、そして合格であるか否かを決定してもよい。また例えば、是と非の標準に従って判定を行ってもよく、即ち、ステップＳ１０１における前記照合表現式の各プロセスにおいて、照合一致であれば、前記医学データが合格であると判定することができる。当業者は、本発明における照合が具体的な内容の照合に関わらず、各照合プロセスはいずれも趨勢性または数量類の絶対照合方法であり、後者の判定方法により適合することを理解し得る。

さらにまた、ステップＳ１０１における複数の照合プロセスが複数の照合結果を生成し、それに応じて、ステップＳ１０２において、全部の照合プロセスの照合が成功した後、前記医学データの合格を確定することができると設定してもよく、一つの変形として、一部の照合プロセスの照合が成功した後、前記医学データの合格を確定することができると設定してもよい。もう一つの変形として、複数の照合結果に対して計算を行った後、一つの総合的な照合値を取得し、そして設定した閾値と比較し、医学データが合格であるか否かを確定してもよい。当業者は上記に基づいて変形を行ってより多くの実施例を作ることができ、ここでは詳述しない。

理解の便宜のために、以下一つの比較的に簡単な実施例を挙げる。

前記医学データが「２０１９０３２１～消化科～発熱腹痛～白血球増加好中球増加～虫垂炎」と表現され、以下のように定義される。デリミタが～であり、情報要素が二つのデリミタの間の連語であり、各デリミタが非初期境界であり、それで情報要素の数が４であり、初期境界が「２０１９０３２１」であり、それに応じて、前記標準ライブラリが「非漢字文字」「デリミタ」「学科標準ライブラリ」「デリミタ」「症状標準ライブラリ」「デリミタ」「指標標準ライブラリ」「デリミタ」「疾病標準ライブラリ」と定義され、その上で、ステップＳ１０１の照合表現式に従い、変形例は以下のとおりである。

例えば、初期境界を照合するときに、標準ライブラリの初期境界の特徴により、変化を行って複数種類の形式を得ることができ、上記標準ライブラリを例にして、医学数据の初期境界の全てが非漢字文字の数字であり、照合成功であり、また例えば、初期境界を照合するときに、医学データの初期境界の後は学科情報であるべきで、照合成功であり、また例えば、初期境界を照合するときに、医学データの初期境界の後の一つ目の漢字文字情報は学科情報であるべきで、照合成功であり、また例えば、初期境界を照合するときに、医学データの初期境界の後の一つ目の情報は漢字文字であるべきで、照合不成功である。また例えば、医学データの初期境界に含まれる非漢字文字とパターンに含まれる非漢字文字との類似性を照合し、上記時間を例にして、標準ライブラリの「非漢字文字」が具体的な時間である「２０１９０５３１」に直接定義されることができ、そうすると時間が比較的近い医学データを直接選別することができる。当業者は、上記に基づいて複数種類の判定方法を定義することができることを理解可能であり、ここでは詳述しない。

例えば、非初期境界を照合するときに、照合する医学データの非初期境界の数と標準ライブラリの非初期境界の数が等しいのであれば、照合成功である。また例えば、非初期境界を照合するときに、医学データの各非初期境界の前後の一つ目の文字の意味タブを確定し、標準ライブラリの各非初期境界の前後に接続される二つのパターンのタブを判断し、タブの属性が一致して対応すれば、照合成功である。また例えば、非初期境界を照合するときに、医学データの二つの隣り合う非初期境界の文字数と標準ライブラリの二つの隣り合う非初期境界の文字数とを確定し、等しいのであれば、照合成功である。当業者は、その上で複数種類の判定方法を定義することができることを理解可能であり、ここでは詳述しない。

例えば、情報要素の数とパターンの数とを照合し、両者の数が等しいのであれば、照合成功である。具体的には、本照合プロセスの照合プロセス結果を影響する重要な要素は、前記情報要素の定義方式及びパターンの定義方式にあり、医学データを例にして、上記定義方式は「二つのデリミタの間の連語が情報要素である」ということであり、定義方式を変更し、医学単語分割の論理に従って情報要素を定義すれば、「発熱腹痛」が二つの情報要素になり、一つの情報要素ではなくなる。より具体的には、前記医学データの情報要素を定義する方式は主動的に発生するが、前記医学データの情報要素の区画は受動的に完成されることで、既定の定義方式に従って区画を完了する必要があり、情報要素に比べると、パターンの定義も主動的に発生するとともに、パターンは標準化されたデータベースと理解することができるため、前記情報要素の認識に比べれば受動化認識というステップがなくなり、その変形例の方式がより多様であるが、パターンの定義の複雑度が照合の成功率を直接決定する。当業者は、その上で複数種類の判定方法を定義することができることを理解可能であり、ここでは詳述しない。

例えば、順序を照合するときに、複数の前記情報要素が属するタブ類型の並べ替えが複数の前記パターンの並べ替えと一致しているか否かを判断し、上記医学データを例にして、その順序が時間、科室、症状、指標、診断に従って順次に並べ替えられ、具体的な認識方式は、まず複数の情報要素に対して意味解析を行って大体の結果を得て、その後タブバンクの分類標準に従って各情報要素に対してタブ化を行い、最後にタブ化された情報要素に対して並べ替えを行うことであり、複数の前記パターンがタブの分類標準に従って生成された標準化順序であり、意味解析のステップを実行する必要がない。実際の応用において、医学データの正規性が異なり、情報要素の数の増加及びパターンの数の増加に伴い、その順序の照合も複雑になり、一つの変形として、複数の情報要素の順序と複数のパターンの順序との類似性に対して評定を行ってもよい。例えば、本発明の省略した単語分割のステップに鑑み、一部の医学データには症状と指標とが混ざり合っており、そこで、情報要素に対して意味解析を行うときに、この情報要素に症状情報と指標情報が混ざり合っていることが分かれば、それが症状パターン－指標パターンの順序に似ていることを認定することができ、照合成功である。当業者は、その上で複数種類の判定方法を定義することができることを理解可能であり、ここでは詳述しない。

例えば、前記情報要素について、各情報要素に対して意味解析を行い、意味解析の結果により、一回ジャンプするごとに、一つの意味関係があると見なされてもよく、そのように複数の前記情報要素の意味関係の数を得ることができる。そのうち、ジャンプとは、意味解析のシソーラスに基づき、情報要素がシソーラスの類型を変えるごとに、一回ジャンプすると見なされる。より具体的には、複数の前記パターンについて、比較的に簡単なのは、その意味関係の数がパターンの数に等しいと設定されてもよく、即ち、パターンの数の定義が複数の前記パターンの意味関係の数に直接に関わる。当業者は、複数の情報要素の意味関係の数と複数のパターンの意味関係の数とを照合するときに、両者の数が等しいまたは近いのであれば、いずれも照合成功と認定されてもよいことを理解し得る。

例えば、文字境界を照合するときに、医学データについては、その文字境界が実際に各情報要素の先頭文字及び末尾文字を特定する位置標識であり、前記標準ライブラリも同様であり、それに応じて、標準ライブラリの文字境界の特徴により、変形を行って複数の方式を得ることができる。上記標準ライブラリを例にして、医学データの一つ目の情報要素の後の文字境界にデリミタがあり、前の文字境界にデリミタがなく、且つ二つの文字境界の間の文字の数が４であり、それに応じて、標準ライブラリの一つ目のパターンと照合を行い、一つ目のパターンのデリミタの位置と同じ、且つ漢字の数も同じまたは類似であれば、照合成功と認定されてもよい。より具体的には、二つの文字境界の間の漢字の数の類似性は、複数種類の照合を有してもよい。一つの場合は、一つ目の情報要素の漢字の数が一つ目のパターンで限定された漢字の数の上限を超えていないのであれば、照合成功と認定し、もう一つの場合は、上限を超えてもよいが、一つ目の情報要素の漢字情報が一つ目のパターンの部分集合である。当業者は、その上で複数種類の判定方法を定義することができることを理解可能であり、ここでは詳述しない。

例えば、非文字境界を照合するときに、上記文字境界を照合することの記載を組み合わせ、つまり文字境界以外はすべて非文字境界であり、本実施例に対しては、つまり各漢字の位置標識がすべて非文字境界であり、即ち、非文字境界で構成された集合が医学データに含まれる全部の漢字の位置情報を表現し、それに応じて、前記標準ライブラリの非文字境界の定義も同じである。その上で、非文字境界の照合については、具体的な意味の照合に関わらず、それは実際に前記医学データの各文字の位置情報と前記標準ライブラリの各文字の位置情報とを順次照合することで、両者の構成一致性または構成類似性が照合されることである。実際の応用から見ると、本照合プロセスは、前記医学データの簡潔性を評価するためのもので、前記医学データが冗長に過ぎる大福帳テキストに属するか否かを評価するためのものである。当業者は、その上で複数種類の判定方法を定義することができることを理解可能であり、ここでは詳述しない。

以上の記載に基づき、各照合プロセスに対して、以下複数のより具体的な実施例を示し、具体的には以下のとおりである。

本発明の第一実施例として、非初期境界を照合するプロセスにおいて、下記（９）式であり、そのうち、ｎ_１は前記医学データの非初期境界の数を表し、ｓ_ｉは前記医学データの二つの非初期境界の最大距離を表し、ｓ´_ｉは前記医学データの非初期境界から前記標準ライブラリの非初期境界までの距離を表す。具体的には、本実施例において、前記医学データの非初期境界の数を基準として照合を行っており、つまり、前記標準ライブラリの非初期境界の数が前記医学データより大きいのであれば、本実施例の実現に影響を及ぼすことはない。より具体的には、本実施例において、ステップＳ１０２に記載のコサイン距離法を採用して計算を行ってもよく、ｉ＝１を例にして、ｓ_１は前記医学データの一つ目の非初期境界と、それとの類似度が最も低い前記医学データのもう一つの非初期境界との両者の間のコサイン距離を表し、ｓ´_１は前記医学データの一つ目の非初期境界と前記標準ライブラリの一つ目の非初期境界との類似度を指し、非初期境界が実際複数の位置標識であり、そのように、本実施例で計算されたのは、実際に前記医学データと前記標準ライブラリとの非初期境界の位置類似性である。

・・・（９）

本発明の第二実施例として、初期境界を照合するプロセスにおいて、下記（１０）式であり、そのうち、ｎ_２は前記医学データの初期境界の数を表し、ｓ_ｉは前記医学データの二つの初期境界の最大距離を表し、ｓ´_ｉは前記医学データの初期境界から前記標準ライブラリの初期境界までの距離を表す。具体的には、本実施例において、前記医学データの初期境界の数を基準として照合を行っており、つまり、前記標準ライブラリの初期境界の数が前記医学データより大きいのであれば、本実施例の実現に影響を及ぼすことはない。より具体的には、本実施例において、ステップＳ１０２に記載のコサイン距離法を採用して計算を行ってもよく、ｉ＝１を例にして、ｓ１は前記医学データの一つ目の初期境界と、それとの類似度が最も低い前記医学データのもう一つの初期境界との両者の間のコサイン距離を表し、前記医学データが「２０１９０３２１～消化科～発熱腹痛～白血球増加好中球増加～虫垂炎」と表現されるのを例にして、そのうち、２０１９０３２１の全部が初期境界であり、一つ目の初期境界が「２」が位置する位置標識であり、それとの距離が最も大きい初期境界が最後の「１」であり、両者の間のコサイン距離がＳ_１であり、同じように、Ｓ´_１は前記医学データの一つ目の初期境界と前記標準ライブラリの一つ目の初期境界との類似度を指し、表現されたのはコサイン距離である。当業者は、初期境界が実際に位置標識であり、そのように、本実施例で計算されたのは、実際に前記医学データと前記標準ライブラリとの初期境界の位置類似性であることを理解し得る。

・・・（１０）

本発明の第三実施例として、下記（１１）式であり、そのうち、Ｎｕｍ_ａは前記医学データに含まれる前記情報要素の数を表し、Ｎｕｍ_ｂは前記標準ライブラリに含まれる前記パターンの数を表す。当業者は、本実施例において絶対数の照合で、照合結果が０または１の二種類のみであり、上記内容を組み合わせ、本実施例の照合結果に影響を与える要点は、前記医学データのデリミタの定義である。

・・・（１１）

本発明の第四実施例として、下記（１２）式であり、そのうち、ｎ_３＝Ｎｕｍ_ａ－１であり、Ｎｕｍ_ａは前記医学データに含まれる前記情報要素の数を表し、Ｓｅｑ_ｉは隣り合う二つの前記情報要素の距離を表し、Ｓｅｑ´_ｉは隣り合う二つの前記パターンの距離を表す。具体的には、二つの前記情報要素の距離が実際に二つの前記情報要素の類似度であり、二つの前記パターンの距離が実際に二つの前記パターンの類似度であり、それに応じて、本実施例における照合プロセスは、依然として具体的な情報要素の内容またはパターンの内容の意味解析に関わらず、単に趨勢を判断するものであり、そうすると技術の難易度を下げ、照合の効率を向上させることができる。好ましくは、Ｓｅｑ_ｉとＳｅｑ´_ｉが互いに対応しており、例えば、ｉ＝１であれば、一つ目の情報要素と二つ目の情報要素との距離及び相応の一つ目のパターンと二つ目のパターンとの距離を表す。より具体的には、本実施例において、前記医学データの情報要素の数を基準として照合を行っており、つまり、前記標準ライブラリのパターンの数が前記情報要素の数より大きいのであれば、本実施例の実現に影響を及ぼすことはない。

・・・（１２）

本発明の第五実施例として、下記（１３）式であり、そのうち、Ｒｅｌ_ａは複数の前記情報要素に含まれる意味関係の数を表し、Ｒｅｌ_ｂは複数の前記パターンに含まれる意味関係の数を表す。具体的には、本実施例の照合方式が第三実施例の照合方式に近く、異なるのは、前述したように、本実施例で照合する意味関係の数について、各情報要素に対して意味解析を行い、意味解析の結果により、一回ジャンプするごとに、一つの意味関係があると見なされてもよく、そのようにして複数の前記情報要素の意味関係の数を得ることができる。そのうち、ジャンプとは、意味解析のシソーラスに基づき、情報要素がシソーラスの類型を変えるごとに、一回ジャンプすると見なされる。より具体的には、複数の前記パターンについて、比較的に簡単なのは、その意味関係の数がパターンの数に等しいと設定されてもよく、即ち、パターンの数の定義が複数の前記パターンの意味関係の数に直接に関わる。

・・・（１３）

本発明の第六実施例として、下記（１４）式であり、そのうち、ｎ_４は前記医学データの文字境界の数を表し、ｂ_ｉは前記医学データの二つの文字境界の最大距離を表し、ｂ´_ｉは前記医学データの文字境界から前記標準ライブラリの文字境界までの距離を表す。具体的には、本実施例において、前記医学データの文字境界の数を基準として照合を行ており、つまり、前記標準ライブラリの文字境界の数が前記医学データより大きいのであれば、本実施例の実現に影響を及ぼすことはない。より具体的には、本実施例において、ステップＳ１０２に記載のコサイン距離法を採用して計算を行ってもよく、ｉ＝１を例にして、ｓ_１は前記医学データの一つ目の文字境界と、それとの類似度が最も低い前記医学データのもう一つの文字境界との両者の間のコサイン距離を表し、ｓ´_１は前記医学データの一つ目の文字境界と前記標準ライブラリの一つ目の文字境界との類似度を指し、文字境界は実際に複数の位置標識であり、そのように、本実施例で計算されたのは、実際に前記医学データと前記標準ライブラリとの文字境界の位置類似性である。

・・・（１４）

本発明の第七実施例として、下記（１５）式であり、そのうち、ｎ_５は前記医学データの非文字境界の数を表し、Ｂ_ｉは前記医学データの二つの非文字境界の最大距離を表し、Ｂ´_ｉは前記医学データの非文字境界から前記標準ライブラリの非文字境界までの距離を表す。具体的には、本実施例において、前記医学データの非文字境界の数を基準として照合を行っており、つまり、前記標準ライブラリの非文字境界の数が前記医学データより大きいのであれば、本実施例の実現に影響を及ぼすことはない。より具体的には、本実施例において、ステップＳ１０２に記載のコサイン距離法を採用して計算を行ってもよく、ｉ＝１を例にして、ｓ_１は前記医学データの一つ目の非文字境界と、それとの類似度が最も低い前記医学データのもう一つの非文字境界との両者の間のコサイン距離を表し、ｓ´_１は前記医学データの一つ目の非文字境界と前記標準ライブラリの一つ目の非文字境界との類似度を指し、非文字境界は実際に複数の位置標識であり、そのように、本実施例で計算されたのは、実際に前記医学データと前記標準ライブラリとの非文字境界の位置類似性である。

・・・（１５）

図６には本発明の他の具体的な実施形態の医学データの検証方法が示され、以下のステップを含む。

まず、ステップＳ２０１を実行し、前記医学データと複数のパターンで構成された標準ライブラリとを照合し、照合表現式は、［＼ｓ｜＼Ｓ］［ｎｕｍｂｅｒ／ｓｅｑｕｅｎｃｅ／ｒｅｌａｔｉｏｎ］＆［＼ｂ｜＼Ｂ］である。具体的には、本ステップについてステップＳ１０１を組み合わせて理解されることができ、ここで詳述しない。

さらに、ステップＳ２０２を実行し、下記（１６）式という式によって前記医学データと前記標準ライブラリとの類似度を算出する。そのうち、Ｃは前記医学データと前記標準ライブラリとの類似度を表し、ｃ_ｊは前記ステップＳ２０１における各照合プロセスの類似度を表し、ｍはステップａにおける照合プロセスの数を表し、具体的には、上記実施例一から実施例七まではステップＳ２０１における各照合プロセスを列挙し、当業者は、ステップＳ２０１における照合表現式を組み合わせて理解することができることを理解可能であり、前記Ｃは実際にステップＳ２０１における前記照合表現式の最終的な計算結果であり、即ち、本ステップに示めされた式を組み合わせ、いずれの照合プロセスを始めていないときに、ｍ＝０であり、それに応じて、前記照合表現式の計算結果も０であり、即ちＣ＝０であり、このとき、前記医学データと前記標準ライブラリとの類似度が０であるが、照合プロセスの進行に伴い、ｍは順次に１、２、３、４などの値を取り、それに応じて各照合プロセスの計算結果ｃ_ｊはいずれも一定の数値と表現され、全部の照合プロセスが終了した後、ｍ個のｃ_ｊにおける最小値を取ったものは、前記照合表現式の計算結果Ｃである。

・・・（１６）

さらに、ステップＳ２０３を実行し、前記ＣがＣ_ｍｉｎより小さいまたはＣ_ｍｉｎに等しいのであるか否かを判断する。そのうち、Ｃ_ｍｉｎは設定した最小類似度の閾値である。前記Ｃ≦Ｃ_ｍｉｎであれば、ステップＳ２０４を実行し、前記医学データが合格であると判定する。具体的には、ステップＳ２０２の結果から、ステップＳ２０２で前記標準ライブラリとの類似度が最も低い照合プロセスの結果を選別したことが分かる。本ステップの目的は、この類似度が最も低い照合プロセスが依然としてシステムが設定した最も低い閾値範囲内にあるか否か、すなわちＣ_ｍｉｎより小さいまたはＣ_ｍｉｎに等しいのであるか否かと比較を行うことである。より具体的には、類似度が最も低い照合プロセスが依然として受け入れられるものであれば、前記医学データが合格であると判定することができる。

上記により、本発明の具体的実施例について述べた。理解すべき点として、本発明は上記の特定の実施形態に限定されるものではない。当業者は、特許請求の範囲で各種の変形又は修正が可能であり、これらが本発明の実質的内容に影響を及ぼすことはない。

Claims

複数の情報要素と複数のデリミタとを含む医学データの検証方法であって、
前記医学データと複数のパターンで構成された標準ライブラリとを照合するステップａと、
ステップａの照合結果に基づいて前記医学データが合格であるか否かを判定するステップｂとを含み、
ステップａでは、照合表現式は、［＼ｓ｜＼Ｓ］［ｎｕｍｂｅｒ／ｓｅｑｕｅｎｃｅ／ｒｅｌａｔｉｏｎ］＆［＼ｂ｜＼Ｂ］であり、［］は一回の照合プロセスを表し、＼ｓは前記医学データの非初期境界と前記標準ライブラリの非初期境界との類似度を表し、＼Ｓは前記医学データの初期境界と前記標準ライブラリの初期境界との類似度を表し、ｎｕｍｂｅｒは前記医学データに含まれる情報要素の数と前記標準ライブラリに含まれるパターンの数との類似度を表し、ｓｅｑｕｅｎｃｅは複数の前記情報要素の順序と複数の前記パターンの順序との類似度を表し、ｒｅｌａｔｉｏｎは複数の前記情報要素の意味関係の数と複数の前記パターンの意味関係の数との類似度を表し、＆は一回または複数回の照合プロセスを表し、＼ｂは前記医学データの文字境界と前記標準ライブラリの文字境界との類似度を表し、＼Ｂは前記医学データの非文字境界と前記標準ライブラリの非文字境界との類似度を表し、｜は択一照合を表し、／は同時照合を表すことを特徴とする、医学データの検証方法。
前記情報要素には値域制限があり、前記値域制限は前記情報要素の種類によって設定され、ステップａを実行するときに、前記医学データは単語分割処理が行われていないことを特徴とする、請求項１に記載の検証方法。
前記ステップａにおける照合表現式において、下記（１）式であり、ｎ_１は前記医学データの非初期境界の数を表し、ｓ_ｉは前記医学データの二つの非初期境界の最大距離を表し、ｓ´_ｉは前記医学データの非初期境界から前記標準ライブラリの非初期境界までの距離を表すことを特徴とする、請求項１に記載の検証方法。

・・・（１）
前記ステップａにおける照合表現式において、下記（２）式であり、ｎ_２は前記医学データの初期境界の数を表し、ｓ_ｉは前記医学データの二つの初期境界の最大距離を表し、ｓ´_ｉは前記医学データの初期境界から前記標準ライブラリの初期境界までの距離を表すことを特徴とする、請求項１に記載の検証方法。

・・・（２）
前記ステップａにおける照合表現式において、下記（３）式であり、Ｎｕｍ_ａは前記医学データに含まれる前記情報要素の数を表し、Ｎｕｍ_ｂは前記標準ライブラリに含まれる前記パターンの数を表すことを特徴とする、請求項１に記載の検証方法。

・・・（３）
前記ステップａにおける照合表現式において、下記（４）式であり、ｎ_３＝Ｎｕｍ_ａ－１であり、Ｎｕｍ_ａは前記医学データに含まれる前記情報要素の数を表し、Ｓｅｑ_ｉは隣り合う二つの前記情報要素の距離を表し、Ｓｅｑ´_ｉは隣り合う二つの前記パターンの距離を表すことを特徴とする、請求項１に記載の検証方法。

・・・（４）
前記ステップａにおける照合表現式において、下記（５）式であり、Ｒｅｌ_ａは複数の前記情報要素に含まれる意味関係の数を表し、Ｒｅｌ_ｂは複数の前記パターンに含まれる意味関係の数を表すことを特徴とする、請求項１に記載の検証方法。

・・・（５）
前記ステップａにおける照合表現式において、下記（６）式であり、ｎ_４は前記医学データの文字境界の数を表し、ｂ_ｉは前記医学データの二つの文字境界の最大距離を表し、ｂ´_ｉは前記医学データの文字境界から前記標準ライブラリの文字境界までの距離を表すことを特徴とする、請求項１に記載の検証方法。

・・・（６）
前記ステップａにおける照合表現式において、下記（７）式であり、ｎ_５は前記医学データの非文字境界の数を表し、Ｂ_ｉは前記医学データの二つの非文字境界の最大距離を表し、Ｂ´_ｉは前記医学データの非文字境界から前記標準ライブラリの非文字境界までの距離を表すことを特徴とする、請求項１に記載の検証方法。

・・・（７）
前記ステップｂは、
下記（８）式という式によって前記医学データと前記標準ライブラリとの類似度を算出するステップｂ１と、
前記Ｃ≦Ｃ_ｍｉｎであれば、前記医学データが合格であると判定するステップｂ２とを含み、
そのうち、Ｃは前記医学データと前記標準ライブラリとの類似度を表し、ｃ_ｊは前記ステップａにおける各照合プロセスの類似度を表し、ｍはステップａにおける照合プロセスの数を表し、
Ｃ_ｍｉｎは設定された最小類似度の閾値であることを特徴とする、請求項１から９のいずれか一項に記載の検証方法。

・・・（８）