JP2023527686A - テキストデータの状態識別及び分類のためのシステム及び方法 - Google Patents
テキストデータの状態識別及び分類のためのシステム及び方法 Download PDFInfo
- Publication number
- JP2023527686A JP2023527686A JP2022567754A JP2022567754A JP2023527686A JP 2023527686 A JP2023527686 A JP 2023527686A JP 2022567754 A JP2022567754 A JP 2022567754A JP 2022567754 A JP2022567754 A JP 2022567754A JP 2023527686 A JP2023527686 A JP 2023527686A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- data
- implemented method
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 248
- 230000001131 transforming effect Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 102
- 230000008569 process Effects 0.000 claims description 96
- 238000012549 training Methods 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 40
- 238000010801 machine learning Methods 0.000 claims description 40
- 238000011282 treatment Methods 0.000 claims description 35
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 239000003814 drug Substances 0.000 claims description 19
- 229940079593 drug Drugs 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 12
- 210000002364 input neuron Anatomy 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 9
- 235000005911 diet Nutrition 0.000 claims description 7
- 230000037213 diet Effects 0.000 claims description 7
- 201000010099 disease Diseases 0.000 claims description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 7
- 230000003449 preventive effect Effects 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 4
- 238000002483 medication Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 description 30
- 238000007726 management method Methods 0.000 description 28
- 238000012015 optical character recognition Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 22
- 238000012360 testing method Methods 0.000 description 17
- 230000009466 transformation Effects 0.000 description 16
- 239000003795 chemical substances by application Substances 0.000 description 14
- 239000000203 mixture Substances 0.000 description 10
- 238000003745 diagnosis Methods 0.000 description 9
- 210000004205 output neuron Anatomy 0.000 description 9
- 238000013518 transcription Methods 0.000 description 9
- 230000035897 transcription Effects 0.000 description 9
- 230000036541 health Effects 0.000 description 8
- 230000015556 catabolic process Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000003907 kidney function Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 210000003734 kidney Anatomy 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 206010011906 Death Diseases 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000002560 therapeutic procedure Methods 0.000 description 2
- 208000011380 COVID-19–associated multisystem inflammatory syndrome in children Diseases 0.000 description 1
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000001632 homeopathic effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002319 photoionisation mass spectrometry Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011321 prophylaxis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002207 retinal effect Effects 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本開示は、事象を記述するテキスト文字列の1つ又は複数の状態を識別し、1つ又は複数の識別された状態に基づいて事象を分類するためのシステム及び方法を提供する。この開示の方法は、事象を記述するテキスト文字列を受信することと、テキスト文字列をモデル化可能なデータに変換することと、事象の1つ又は複数の状態を識別するために変換済みのデータのワード構成を解析することと、識別された状態に基づいて事象を分類することとを含む。
Description
関連出願の相互参照
[0001] この出願は、2020年5月13日に出願された米国仮特許出願第63/024299号への優先権を主張し、同特許は、その全体が参照により本明細書に組み込まれる。
[0001] この出願は、2020年5月13日に出願された米国仮特許出願第63/024299号への優先権を主張し、同特許は、その全体が参照により本明細書に組み込まれる。
背景
[0002] 自動テキスト解析は、テキストデータから情報を抽出するために重要である。しかし、現在の自動テキスト解析モデルは、予想外の書式であるか又は見慣れないワード若しくはフレーズを含むテキストデータを取り扱うことができないという点で制限される。このことは、ペット保険制度において保険金請求を処理する上で特に問題となり得る。例えば、調整者(adjuster)は、非標準ペット衛生規約を含む獣医記録を見直す必要があり得、それには、動物科学における技術的な知識及び専門知識が必要とされ得、保険金請求を処理する処置が遅くなる。
[0002] 自動テキスト解析は、テキストデータから情報を抽出するために重要である。しかし、現在の自動テキスト解析モデルは、予想外の書式であるか又は見慣れないワード若しくはフレーズを含むテキストデータを取り扱うことができないという点で制限される。このことは、ペット保険制度において保険金請求を処理する上で特に問題となり得る。例えば、調整者(adjuster)は、非標準ペット衛生規約を含む獣医記録を見直す必要があり得、それには、動物科学における技術的な知識及び専門知識が必要とされ得、保険金請求を処理する処置が遅くなる。
概要
[0003] 標準化書式ではないか又は非標準言語若しくはフレーズを含むテキストデータを処理するためのシステム及び方法が必要である。それに加えて、本明細書では、ペット保険業界における保険金請求処理を自動化するためのシステム及び方法の必要性が認識されている。本明細書で提供されるシステム及び方法は、速度及び正確度を改善して保険金請求を効率的に処理することができる。
[0003] 標準化書式ではないか又は非標準言語若しくはフレーズを含むテキストデータを処理するためのシステム及び方法が必要である。それに加えて、本明細書では、ペット保険業界における保険金請求処理を自動化するためのシステム及び方法の必要性が認識されている。本明細書で提供されるシステム及び方法は、速度及び正確度を改善して保険金請求を効率的に処理することができる。
[0004] 本開示の態様では、事象を分類するためのコンピュータ実装方法が提供される。方法は、(a)入力データからテキストデータを抽出することであって、テキストデータが、事象を記述する、抽出することと、(b)多数の機械学習アルゴリズム訓練済みモデルによって処理するために、テキストデータを変換済みの入力特徴に変換することと、(c)事象の多数の状態を出力するために、多数の機械学習アルゴリズム訓練済みモデルを使用して変換済みの入力特徴を処理することと、(d)事象のステータスを示す出力を生成するために、多数の状態を集約することとを含む。
[0005] 関連するが別個のものである態様では、命令を含む非一時的なコンピュータ可読媒体であって、命令が、プロセッサによって実行されると、事象を分類するための方法をプロセッサに実行させる、非一時的なコンピュータ可読媒体が提供される。方法は、(a)入力データからテキストデータを抽出することであって、テキストデータが、事象を記述する、抽出することと、(b)多数の機械学習アルゴリズム訓練済みモデルによって処理するために、テキストデータを変換済みの入力特徴に変換することと、(c)事象の多数の状態を出力するために、多数の機械学習アルゴリズム訓練済みモデルを使用して変換済みの入力特徴を処理することと、(d)事象のステータスを示す出力を生成するために、多数の状態を集約することとを含む。
[0006] いくつかの実施形態では、入力データは、非構造化テキストデータを含む。いくつかの実施形態では、テキストデータを抽出することは、入力データからワードの組合せを識別することを含む。いくつかの事例では、方法は、アンカーワードの場所に少なくとも部分的に基づいて、アンカーワードの場所に対する境界を決定することをさらに含む。いくつかの例では、方法は、境界内のテキストデータのサブセットを認識することをさらに含む。例えば、方法は、テキストデータのサブセットの座標に基づいて、テキストデータのサブセットの少なくとも一部分をグループ分けすることをさらに含む。いくつかの事例では、アンカーワードは、入力データのフォーマットに基づいて事前に決定される。いくつかの事例では、アンカーワードは、機械学習アルゴリズム訓練済みモデルを使用してラインアイテムワードの存在を予測することによって識別される。
[0007] いくつかの実施形態では、テキストデータを抽出することは、(i)多数の機械学習アルゴリズム訓練済みモデルのデータ分布範囲外のワードを識別することと、(ii)多数の機械学習アルゴリズム訓練済みモデルのデータ分布範囲内の置換ワードにそのワードを置き換えることとを含む。いくつかの実施形態では、変換済みの入力特徴は、数値を含む。
[0008] いくつかの実施形態では、多数の状態は、異なるタイプの状態である。いくつかの実施形態では、多数の状態は、病状、医療処置、歯の治療、予防治療、食事療法、健康診断、薬物治療、治療部位、費用、割引、持病、疾患又は病気を含む。いくつかの実施形態では、多数の状態は、訓練済みモデルを使用して集約される。いくつかの事例では、出力は、ステータスの確率を含む。
[0009] いくつかの実施形態では、出力は、多数の状態を集約することから推論される洞察を含む。いくつかの実施形態では、事象のステータスは、承認、拒否又はさらなる妥当性確認動作の要求を含む。いくつかの実施形態では、方法は、同じ状態に対応する2つの異なる機械学習アルゴリズム訓練済みモデルを提供することをさらに含む。いくつかの事例では、方法は、事象の特徴に基づいて変換済みの入力特徴を処理するために、2つの異なる機械学習アルゴリズム訓練済みモデルからモデルを選択することをさらに含む。いくつかの実施形態では、入力データは、文字起こしされたデータを含む。
[0010] 本開示の態様では、事象を分類するためのコンピュータ実装方法。方法は、上記事象を記述する変換済みのテキスト文字列を受信することと、上記変換済みのテキスト文字列に存在するワードを識別することと、上記変換済みのテキスト文字列に存在するワードの組合せを識別することと、(i)上記ワード、(ii)ワードの組合せ又は(iii)それらの組合せに基づいて上記事象を分類することとを含む。
[0011] いくつかの実施形態では、分類することは、上記事象の状態を識別することを含む。いくつかの事例では、状態は、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、又は少なくとも10,000の考えられる状態から選択される。いくつかの実施形態では、分類することは、2つ以上の状態を識別することを含む。いくつかの事例では、2つ以上の状態は、2つ以上のプロセスから決定される。いくつかの例では、2つ以上のプロセスは、並行して走る。
[0012] いくつかの実施形態では、ワードを識別することは、過去のテキスト文字列で識別されたワードのデータベースから上記ワードを識別することを含む。いくつかの事例では、ワードのデータベースは、少なくとも100、少なくとも500、少なくとも1000、少なくとも5000、少なくとも10,000、少なくとも20,000又は少なくとも30,000の既知のワードを含む。いくつかの実施形態では、上記ワードを識別することは、数値識別子を上記ワードに割り当てることを含む。いくつかの事例では、数値識別子は、過去のテキスト文字列で識別されたワードに対応する。いくつかの事例では、数値識別子は、過去のテキスト文字列で識別されたワードに対応しない。いくつかの実施形態では、ワードの組合せを識別することは、有意なワードの組合せを識別することを含む。いくつかの事例では、有意なワードの組合せは、有意なワードの組合せのデータベースから識別される。いくつかの例では、有意なワードの組合せのデータベースは、状態を示すものとして過去のテキスト文字列から識別されたワードの組合せを含む。いくつかの事例では、有意なワードの組合せのデータベースは、少なくとも100、少なくとも500、少なくとも1000、少なくとも5000又は少なくとも10,000の有意なワードの組合せを含む。
[0013] いくつかの実施形態では、状態は、病状である。いくつかの実施形態では、状態は、医療処置である。いくつかの実施形態では、状態は、歯の治療、予防治療、食事療法、健康診断、薬物治療、治療部位、費用、割引、持病、疾患又は病気である。
[0014] いくつかの事例では、分類することは、多数の状態を識別することを含む。いくつかの事例では、多数の状態の状態は、独立して識別される。いくつかの事例では、分類することは、結果を決定するために、上記多数の状態を集約することをさらに含む。いくつかの事例では、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16又は少なくとも17の状態が識別される。
[0015] いくつかの実施形態では、状態は、標準化状態である。いくつかの実施形態では、変換済みのテキストデータは、非標準化テキストデータから変換されているデータを含む。いくつかの実施形態では、分類することは、起こり得る状態を決定するために訓練済み機械学習モデルを適用することを含む。いくつかの事例では、訓練済み機械学習モデルは、ニューラルネットワークを含む。いくつかの例では、上記ワードを識別することは、入力ニューロンを活性化することを含む。いくつかの事例では、訓練済み機械学習モデルは、過去のテキスト文字列を含む訓練セットを使用して訓練される。
[0016] 本開示の別の態様は、機械実行可能コードを含む非一時的なコンピュータ可読媒体であって、機械実行可能コードが、1つ又は複数のコンピュータプロセッサによって実行されると、上記の又は本明細書の他の場所に記載の方法のいずれかを実施する、非一時的なコンピュータ可読媒体を提供する。
[0017] 本開示の別の態様は、1つ又は複数のコンピュータプロセッサと、1つ又は複数のコンピュータプロセッサに結合されたコンピュータメモリとを含むシステムを提供する。コンピュータメモリは、機械実行可能コードを含み、機械実行可能コードは、1つ又は複数のコンピュータプロセッサによって実行されると、上記の又は本明細書の他の場所に記載の方法のいずれかを実施する。
[0018] 本開示の追加の態様及び利点は、以下の詳細な説明から当業者に容易に明らかになるであろう。以下の詳細な説明では、本開示の例示的な実施形態のみが示され、説明されている。気付いていようが、本開示は、他の異なる実施形態が可能であり、様々な明らかな点においてそのいくつかの詳細を修正することが可能であり、それらはすべて、本開示を逸脱しない範囲で可能である。それに従って、図面及び説明は、本質的には、制限ではなく、例示と見なされる。
参照による組み込み
[0019] この明細書で言及されるすべての公表文献、特許及び特許出願は、まるで個々の公表文献、特許又は特許出願の各々が参照により組み込まれることが具体的に及び個別に示されているかのように思われる場合と同じように、参照により本明細書に組み込まれる。
[0019] この明細書で言及されるすべての公表文献、特許及び特許出願は、まるで個々の公表文献、特許又は特許出願の各々が参照により組み込まれることが具体的に及び個別に示されているかのように思われる場合と同じように、参照により本明細書に組み込まれる。
図面の簡単な説明
[0020] 本開示の新規の特徴は、添付の特許請求の範囲において具体的に記載される。本開示の特徴及び利点は、本開示の原理が利用される例示的な実施形態について記載する以下の詳細な説明及び添付の図面を参照することによって、より良く理解されよう。
[0020] 本開示の新規の特徴は、添付の特許請求の範囲において具体的に記載される。本開示の特徴及び利点は、本開示の原理が利用される例示的な実施形態について記載する以下の詳細な説明及び添付の図面を参照することによって、より良く理解されよう。
詳細な説明
[0036] 本開示は、事象の記述に関連するテキストデータの処理及び分類を行うためのシステム及び方法を提供する。具体的には、本開示は、ペット保険金請求処理を自動化するためのシステム及び方法を提供する。本明細書で説明されるように、この開示のシステム及び方法は、テキストデータをモデル化可能なデータに変換することと、テキストに記述される事象の1つ又は複数の状態を識別することと、1つ又は複数の状態に基づいて事象を分類することとによって、非標準化書式の保険金請求又はペット保険金請求などのテキストデータを処理することができる。
[0036] 本開示は、事象の記述に関連するテキストデータの処理及び分類を行うためのシステム及び方法を提供する。具体的には、本開示は、ペット保険金請求処理を自動化するためのシステム及び方法を提供する。本明細書で説明されるように、この開示のシステム及び方法は、テキストデータをモデル化可能なデータに変換することと、テキストに記述される事象の1つ又は複数の状態を識別することと、1つ又は複数の状態に基づいて事象を分類することとによって、非標準化書式の保険金請求又はペット保険金請求などのテキストデータを処理することができる。
[0037] 本開示のいくつかの実施形態では、テキストデータは、ペット保険金請求と関連付けられた請求データベース及び/又は多種多様な請求書及びドキュメントから得られる請求データを含み得る。生の入力データは、請求データストア又は保険システムから得られる構造化請求データなどの保険金請求に関連し得る。例えば、構造化請求データは、獣医診療所又はペットの飼い主によって、カスタム化された請求書式で提出することができる。いくつかの事例では、構造化請求データは、ペット又は治療についての保険証券ID/番号、病気/怪我又は他のフィールドなどのテキストデータを含み得る。いくつかの事例では、テキストデータは、JavaScriptオブジェクト表記法(JSON)データなどの構造化データを含み得る。任意選択の事例では、生の入力データは、保険金請求書、インボイスの画像、医療報告書、Eメール又はウェブベースのコンテンツなどの請求に関連する非構造化データを含み得る。テキストデータは、オンラインフォーム提出、Eメールテキスト、ワープロドキュメント、ポータブルドキュメントフォーマット(PDF)、テキストの画像又は他の様々な書式として受信することができる。Eメール又はインボイスの画像などの非構造化入力データは、処理の前にテキストデータを抽出するために前処理することができる。
[0038] 上記で説明されるように、非標準ペット衛生規約又は他の一様の規格若しくは規則の欠如により、テキストデータは、様々な非標準化書式のものであり得る。非標準化テキストデータは、標準化専門用語、表現法又はフォーマットを順守することなく、散文で、事象を記述し得る。非標準化テキストデータは、事象の標準的な記述と整合しない事象の記述を含み得る。いくつかの実施形態では、事象の記述は、ユーザによって又は一般大衆の1人によって準備される。いくつかの実施形態では、事象の記述は、事象の観察者によって準備することができる。いくつかの実施形態では、事象の記述は、熟練の開業医によって準備される。例えば、事象の記述は、被験者に対して実行された医療処置の記述を含み得る。医療事象の記述は、医療専門家が準備し、この開示のシステムに提供することができる。
[0039] いくつかの事例では、患者は、ペットとも呼ばれる場合がある。本明細書で利用されるように、「獣医診療所」という用語は、動物に対してサービスが提供される病院、クリニック又は同様のものを指し得る。
[0040] 本明細書で使用される場合、「医学」は、人間医学、獣医学、歯科医学、自然医学、代替医学又は同様のものを含み得る。被験者は、人間の被験者又は動物の被験者であり得る。「医療専門家」は、本明細書で使用される場合、医師、獣医師、医療技術者、獣医看護師、医療研究者、獣医研究者、自然療法医、ホメオパシー医、セラピスト又は同様のものを含み得る。医療処置は、人間に対して実行される医療処置、獣医処置、歯科処置、自然療法処置又は同様のものを含み得る。医療事象は、人間の被験者に関与する医療事象、獣医事象、歯科事象、自然療法事象又は同様のものを含み得る。いくつかの事例では、医療事象の記述は、例えば、処置、製品、試薬、結果、健康状態又は診断に対応する1つ又は複数のラインアイテムを含み得る。
[0041] 図1は、本明細書で説明される方法100のワークフローを示す。方法は、事象を記述するテキスト文字列を受信すること(110)を含む。テキスト文字列は、例えば、オンライン提出フォームを通じて若しくはEメールで受信することも、PDF、ワープロドキュメント、テキストの画像又はスクリーンスクレイピングからを含む様々な電子方式で得ることもできる。テキスト文字列は、非標準化フォーマットであり得る。テキスト文字列は、モデル化可能なデータに変換することができる(120)。テキスト文字列をモデル化可能なデータに変換することは、テキスト文字列を数値データに変換することを含み得る。例えば、テキスト文字列は、一連の数値識別子に変換することができ、数値識別子は、ワードに対応し、ワードを識別する。いくつかの実施形態では、テキスト文字列をモデル化可能なデータに変換することは、テキスト文字列から共通のワード(代名詞、前置詞、冠詞又は接続詞など)を取り除くことをさらに含み得る。変換済みのデータのワード構成は、ワード構成によって示される1つ又は複数の状態を決定するために解析することができる(130)。ワード構成を解析することは、テキスト文字列におけるワードの有無を決定することを含み得る。いくつかの実施形態では、テキスト文字列におけるワードの有無を決定することは、ワードに対応する数値識別子が変換済みのデータに存在するかどうかを判断し、ワードに対応する数値識別子が変換済みのデータに存在する場合は、ワードがテキスト文字列に存在すると決定することを含み得る。
[0042] ワード構成を解析することは、テキスト文字列に存在するワードの組合せを識別することをさらに含み得る。いくつかの実施形態では、ワードの組合せは、状態を示す2つ以上のワードを含み得る。1つ又は複数の状態は、テキスト文字列に存在するワード構成(例えば、ワード又はワードの組合せ)に基づいて識別することができる。いくつかの実施形態では、状態は、ラインアイテムなどの事象記述の要素に対応し得る。例えば、状態は、有限数の考えられる状態から選択される処置、製品、試薬、結果、健康状態又は診断に対応し得る。テキスト文字列に記述される事象又は130で識別された1つ若しくは複数の状態は、1つ又は複数の識別された状態に基づいて分類することができる(140)。いくつかの実施形態では、分類は、状態の過去の分類に基づき得る。状態は、標準化状態(例えば、健康状態又は処置と関連付けられた医療請求コード)であり得る。
[0043] 図1に関して説明される方法100の例示的な実装形態は、医療事象を記述するテキスト文字列の識別及び分類を行うためのものであり得る。いくつかの実施形態では、医療事象を記述するテキスト文字列は、医療専門家によって準備される処置、健康状態又は診断の記述であり得る。処置、結果、健康状態又は診断の記述は、医療事象において使用される製品又は試薬をさらに含み得る。記述は、標準化フォーマットでなくとも、標準化専門用語を使用しなくともよい。例えば、腎機能を測定するテストは、「腎機能パネル(kidney function panel又はrenal function panel)」、「腎機能テスト」又は「腎パネル」と交換しても同じように説明することができる。ステップ110に示されるように、医療事象を記述するテキスト文字列は、医療専門家、患者、顧客、ペットの飼い主又は他の任意の個人によって、本開示のシステムに提出することができる。ステップ120に示されるように、医療事象を記述するテキスト文字列は、テキスト文字列に存在する各ワードを識別する数値識別子を含むモデル化可能なデータに変換することができる。130に示されるように、テキスト文字列のワード構成は、医療事象の1つ又は複数の状態を決定するために解析することができる。例えば、「腎臓(kidney)」というワード又は「腎臓の(renal)」というワードと、「テスト」というワード又は「パネル」というワードとの組合せを含むワード構成は、医療事象の状態として腎機能を測定するテストを識別することができる。いくつかの実施形態では、状態は、医師診療行為用語(CPT)コードなどの医療請求コードと関連付けることができる。140に示されるように、医療事象又は医療事象の状態は、さらに分類することができる。例えば、130で識別された処置は、日常的な処置、予防処置又は持病と関連付けられた処置として分類することができる。
[0044] 図2は、事象を記述するテキスト文字列のワード構成を解析し、テキスト文字列のワード構成に基づいて事象を分類するための第1の方法200のワークフローを示す。変換済みのテキストデータ(例えば、図1に関して説明されるモデル化可能なデータ120)は、本開示のシステムによって受信することができる(210)。変換済みのデータは、テキスト文字列において個々のワードに対応する一連の数値識別子を含み得る。いくつかの実施形態では、個々のワードに対応する数値識別子は、過去のテキスト文字列(システムによって以前に受信されたテキスト文字列など)で識別されたワードに基づいて割り当てることができる。(例えば、過去のテキスト文字列又は訓練テキスト文字列で以前に識別されたワードを含む)ワードのリスト内のワードは、変換済みのデータに存在するか又は変換済みのデータに存在しないものとして識別することができる(220)。ワードのリストは、最大で100、最大で200、最大で300、最大で400、最大で500、最大で600、最大で700、最大で800、最大で900、最大で1000、最大で5000、最大で10,000、最大で20,000、最大で30,000、最大で40,000、最大で50,000、最大で100,000、最大で125,000、最大で150,000、最大で175,000又は最大で200,000の以前に識別されたワードを含み得る。ワードのリストは、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも5000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも100,000、少なくとも125,000、少なくとも150,000、少なくとも175,000又は少なくとも200,000の以前に識別されたワードを含み得る。いくつかの実施形態では、数値識別子に対応するテキスト文字列に存在する新しいワードを識別することができる。そのような事例では、数値識別子を新しいワードに割り当てることができる。いくつかの実施形態では、テキスト文字列に存在するワードの少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%又は100%に数値識別子が割り当てられる。いくつかの実施形態では、テキスト文字列に存在するワードの最大で50%、最大で55%、最大で60%、最大で65%、最大で70%、最大で75%、最大で80%、最大で85%、最大で90%、最大で91%、最大で92%、最大で93%、最大で94%、最大で95%、最大で96%、最大で97%、最大で98%、最大で99%又は100%に数値識別子が割り当てられる。例示的な実装形態では、テキスト文字列におけるワードの有無をそれぞれ示すため、以前に識別されたすべてのワードに対応する数値識別子を含む行列に1と0を投入することができる。新しいワードが識別された際は、新しいワードの数値識別子を含む新しい要素を行列に加えることができる。次いで、変換済みのデータに存在するワードの組合せを識別することができる(230)。特定の状態を示し得る有意なワードの組合せは、機械学習を使用して決定することができる。例えば、機械学習モデルは、1つ又は複数の状態と関連付けられた変換済みのテキストデータを使用して訓練することができる。いくつかの実施形態では、同じ状態に対応する、テキスト文字列において組合せで頻繁に発生するワードは、有意なワードの組合せとして識別することができる。いくつかの実施形態では、ワードの組合せは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9又は少なくとも10のワードを含み得る。いくつかの実施形態では、ワードの組合せは、最大で2、最大で3、最大で4、最大で5、最大で6、最大で7、最大で8、最大で9若しくは最大で10の又はそれ以上のワードを含み得る。変換済みのデータにおいて有意なワードの組合せが識別された場合は、テキスト文字列は、状態に対応するものとして識別することができる。いくつかの実施形態では、ワードの組合せが状態を示す場合は、ワードの組合せは、有意なワードの組合せとして識別することができる。有意なワードの組合せは、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも5000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000又は少なくとも100,000の有意なワードの組合せから識別することができる。ワードの有意な組合せは、最大で100、最大で200、最大で300、最大で400、最大で500、最大で600、最大で700、最大で800、最大で900、最大で1000、最大で5000、最大で10,000、最大で20,000、最大で30,000、最大で40,000、最大で50,000又は最大で100,000の有意なワードの組合せから識別することができる。いくつかの実施形態では、ワードの組合せに対応する状態は、ワードの組合せの個々のワードに対応する状態とは異なり得る。テキストデータは、ワード構成(例えば、識別されたワード若しくはワードの組合せ)に基づいて又は識別された状態に基づいて分類することができる(240)。いくつかの実施形態では、テキストデータは、1つ又は複数の状態に対応する分類された過去のテキストデータで訓練された機械学習モデルを使用して分類することができる。
[0045] データを分類すること(240)は、1つ又は複数の独立したプロセスを使用して1つ又は複数の状態を識別することを含み得る。独立したプロセスは、第2の状態の決定から独立して状態を決定することができる。例えば、独立したプロセスによって識別される状態の決定は、第2の状態の識別による影響を受けないものであり得る。本開示の方法は、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45又は少なくとも50の独立したプロセスを含み得る。本開示の方法は、最大で1、最大で2、最大で3、最大で4、最大で5、最大で6、最大で7、最大で8、最大で9、最大で10、最大で11、最大で12、最大で13、最大で14、最大で15、最大で16、最大で17、最大で18、最大で19、最大で20、最大で25、最大で30、最大で35、最大で40、最大で45又は最大で50の独立したプロセスを含み得る。独立したプロセスは、状態のタイプから状態を識別することができる。例えば、状態のタイプは、病状、医療処置、薬物治療、治療、診断又は費用であり得る。プロセス(例えば、独立したプロセス)は、テキスト文字列を処理することができる。いくつかの実施形態では、プロセスは、テキスト文字列全体を処理する。いくつかの実施形態では、プロセスは、テキスト文字列の関連部分を識別することができる。独立したプロセスによって識別される複数の状態の決定については、図9に関してさらに詳細に説明する。
[0046] 図3は、本開示の方法において実装することができるニューラルネットワークの例示的な概略図を示す。ニューラルネットワークは、多数の入力ニューロン311を含む入力層310と、多数の隠れニューロン321を含む1つ又は複数の隠れ層320と、多数の出力ニューロン331を含む出力層330とを含み得る。入力ニューロンは、入力パラメータ315によって1つ又は複数の隠れニューロンに接続することができ、隠れ層ニューロンは、出力パラメータ325によって1つ又は複数の出力ニューロンに接続することができる。隠れ層ニューロンは、1つ又は複数の入力層ニューロンに接続することができる。出力層ニューロンは、1つ又は複数の隠れ層ニューロンに接続することができる。入力パラメータは、接続又は相互作用の頻度、発生又は確率に基づく重みを含み得る。出力パラメータは、接続又は相互作用の頻度、発生又は確率に基づく重みを含み得る。隠れパラメータは、接続又は相互作用の頻度、発生又は確率に基づく重みを含み得る。入力層ニューロンは、入力パラメータの有無にそれぞれ基づいて、活性化するか又は不活性化することができる。
[0047] 入力層は、最大で100、最大で200、最大で300、最大で400、最大で500、最大で600、最大で700、最大で800、最大で900、最大で1000、最大で5000、最大で10,000、最大で20,000、最大で30,000、最大で40,000、最大で50,000、最大で100,000、最大で125,000、最大で150,000、最大で175,000又は最大で200,000の入力ニューロンを含み得る。入力層は、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも5000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも100,000、少なくとも125,000、少なくとも150,000、少なくとも175,000、少なくとも200,000又は少なくとも100万の入力ニューロンを含み得る。例えば、入力層ニューロンは、ワードに対応し得る。いくつかの実施形態では、入力層は、訓練テキストデータセットで識別された各ワードに対する入力ニューロンを含み得る。テストデータセットに存在するワードに対応する入力ニューロンは活性化することができ、テストデータセットに存在しないワードに対応する入力ニューロンは不活性化することができる。隠れ層は、最大で10、最大で20、最大で30、最大で40、最大で50、最大で60、最大で70、最大で80、最大で90、最大で100、最大で200、最大で300、最大で400、最大で500、最大で1000、最大で2000、最大で3000、最大で4000又は最大で5000の隠れニューロンを含み得る。例えば、隠れ層は、訓練テキストデータセットで識別された各ワードに対する隠れニューロンを含み得る。本開示のニューラルネットワークは、1つ若しくは複数の状態又は1つ若しくは複数の分類に対応するテキストデータを使用して訓練することができる。入力ニューロンを隠れニューロンに接続する入力パラメータは、訓練テキストデータセットにおいて入力ニューロンに対応するワードが隠れニューロンに対応するワードとの組合せで発生する頻度を表す重みを含み得る。より大きな重みは、より高い発生頻度を示し得る。隠れニューロンを出力ニューロンに接続する出力パラメータは、訓練テキストデータセットにおいて隠れニューロンに対応するワードの組合せが状態又は分類と関連付けられる頻度を表す重みを含み得る。より大きな重みは、より高い関連付け頻度を示し得る。出力層は、最大で100、最大で500、最大で1000、最大で2000、最大で3000、最大で4000、最大で5000、最大で6000、最大で7000、最大で8000、最大で9000、最大で10,000、最大で11,000、最大で12,000、最大で13,000、最大で14,000又は最大で15,000の出力ニューロンを含み得る。出力層は、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、少なくとも6000、少なくとも7000、少なくとも8000、少なくとも9000、少なくとも10,000、少なくとも11,000、少なくとも12,000、少なくとも13,000、少なくとも14,000又は少なくとも15,000の出力ニューロンを含み得る。例えば、出力層は、入力テキストデータセットに基づいて識別することができる各健康状態、状態又は診断分類に対する出力ニューロンを含み得る。出力層ニューロンは、出力層ニューロンに対応する健康状態、状態又は診断として入力テキストデータセットが分類される確率に相当する確率を含み得る。いくつかの実施形態では、出力層ニューロンの確率の総和は1である。
[0048] いくつかの実施形態では、本開示のニューラルネットワークは、入力層、出力層及び多数の隠れ層を含む、畳み込みニューラルネットワーク(CNN)であり得る。畳み込みニューラルネットワークは、1、2、3、4、5、6、7、8、9又は少なくとも10の隠れ層を含み得る。いくつかの実施形態では、畳み込みニューラルネットワークは、最大で2、最大で3、最大で4、最大で5、最大で6、最大で7、最大で8、最大で9又は少なくとも10の隠れ層を含み得る。いくつかの実施形態では、畳み込みニューラルネットワークは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9又は少なくとも10の隠れ層を含み得る。入力ニューロンは、入力パラメータによって1つ又は複数の隠れニューロンに接続することができる。隠れ層ニューロンは、出力パラメータによって1つ又は複数の出力ニューロンに接続することができる。第1の隠れ層の隠れ層ニューロンは、隠れパラメータによって第2の隠れ層の1つ又は複数の隠れ層ニューロンに接続することができる。入力パラメータは、接続又は相互作用の頻度、発生又は確率に基づく重みを含み得る。出力パラメータは、接続又は相互作用の頻度、発生又は確率に基づく重みを含み得る。隠れパラメータは、接続又は相互作用の頻度、発生又は確率に基づく重みを含み得る。入力層ニューロンは、入力パラメータの有無にそれぞれ基づいて、活性化するか又は不活性化することができる。
[0049] 図4は、事象を記述するテキスト文字列のワード構成を解析し、1つ又は複数の状態を事象に割り当て、ニューラルネットワークを使用してテキスト文字列のワード構成又は1つ若しくは複数の状態に基づいて事象を分類するための第2の方法400のワークフローを示す。いくつかの実施形態では、方法400は、図3に関して説明されるニューラルネットワークを実装することができる。テキスト文字列から変換されているモデル化可能なデータ(例えば、図1に関して説明される変換済みのデータ120)は、本開示のシステムによって受信することができる(410)。ワードの存在は、変換済みのデータにおける数値識別子の存在に基づいて、テキスト文字列で識別することができる(420)。テキスト文字列に存在するワードに対応する訓練済みニューラルネットワークのニューロンを活性化することができる(430)。いくつかの実施形態では、テキスト文字列に存在するワードの少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%又は100%がニューロンに対応する。いくつかの実施形態では、テキスト文字列に存在するワードの最大で50%、最大で55%、最大で60%、最大で65%、最大で70%、最大で75%、最大で80%、最大で85%、最大で90%、最大で91%、最大で92%、最大で93%、最大で94%、最大で95%、最大で96%、最大で97%、最大で98%、最大で99%又は100%がニューロンに対応する。隠れ層ニューロンは、テキスト文字列に存在するワードの組合せに基づいて活性化することができる(440)。ワードの組合せは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9又は少なくとも10のワードを含み得る。いくつかの実施形態では、ワードの組合せは、最大で10、最大で20、最大で30、最大で40、最大で50、最大で60、最大で70、最大で80、最大で90、最大で100、最大で200、最大で300、最大で400、最大で500、最大で1000、最大で2000、最大で3000、最大で4000若しくは最大で5000の又はそれ以上のワードを含み得る。いくつかの実施形態では、テキスト文字列のすべての考えられるワードの組合せが識別される。いくつかの実施形態では、状態を示し得るテキスト文字列のすべての考えられるワードの組合せが識別される。ワードの組合せは、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1000、少なくとも5000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000又は少なくとも100,000のワードの組合せから識別することができる。ワードの組合せは、最大で100、最大で200、最大で300、最大で400、最大で500、最大で600、最大で700、最大で800、最大で900、最大で1000、最大で5000、最大で10,000、最大で20,000、最大で30,000、最大で40,000、最大で50,000又は最大で100,000のワードの組合せから識別することができる。いくつかの実施形態では、ワードの組合せが状態を示す場合は、ワードの組合せは、有意なワードの組合せとして識別することができる。いくつかの実施形態では、状態を示さないテキスト文字列のワードの組合せは識別されない。第1のワード又は第1のワードの組合せに対応するニューロンを接続する入力パラメータの重みが第2のワード又は第2のワードの組合せを接続する入力パラメータの重みと同様である場合は、第1のワード又は第1のワードの組合せは、第2のワード又は第2のワードの組合せと同じ状態に対応し得る。例えば、「腎臓(kidney)」というワードと関連付けられたニューロンを接続する入力パラメータの重みが「腎臓の(renal)」というワードと関連付けられたニューロンを接続する入力パラメータの重みと同様である場合は、「腎臓(kidney)」というワードは、「腎臓の(renal)」というワードと同義であるものとして識別することができる。テキストデータに対応する1つ又は複数の状態は、テキスト文字列に存在するワード構成(例えば、ワード又はワードの組合せ)に基づいて識別することができる(450)。状態は、出力ニューロンに対応し得る。出力ニューロンは、考えられる状態に対応し得る。本開示の訓練済みニューラルネットワークは、最大で100、最大で500、最大で1000、最大で2000、最大で3000、最大で4000、最大で5000、最大で6000、最大で7000、最大で8000、最大で9000、最大で10,000、最大で11,000、最大で12,000、最大で13,000、最大で14,000、最大で15,000、最大で16,000、最大で17,000、最大で18,000、最大で19,000若しくは最大で20,000の又はそれ以上の状態を含み得る。本開示の訓練済みニューラルネットワークは、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、少なくとも6000、少なくとも7000、少なくとも8000、少なくとも9000、少なくとも10,000、少なくとも11,000、少なくとも12,000、少なくとも13,000、少なくとも14,000、少なくとも15,000、少なくとも16,000、少なくとも17,000、少なくとも18,000、少なくとも19,000又は少なくとも20,000の状態を含み得る。1つ又は複数の状態は、訓練済みニューラルネットワークを使用して、訓練データセットにおけるワード又はワードの組合せと状態との間の関連付けの頻度に基づいて識別することができる。関連状態は、訓練データセットにおいてテストテキスト文字列で識別された状態と頻繁に関連付けられる状態に基づいて識別することができる(460)。
[0050] 起こり得る状態を識別すること(450)は、1つ又は複数の独立したプロセスを使用して1つ又は複数の状態を識別することを含み得る。独立したプロセスは、第2の状態の決定から独立して状態を決定することができる。例えば、独立したプロセスによって識別される状態の決定は、第2の状態の識別による影響を受けないものであり得る。本開示の方法は、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45又は少なくとも50の独立したプロセスを含み得る。本開示の方法は、最大で1、最大で2、最大で3、最大で4、最大で5、最大で6、最大で7、最大で8、最大で9、最大で10、最大で11、最大で12、最大で13、最大で14、最大で15、最大で16、最大で17、最大で18、最大で19、最大で20、最大で25、最大で30、最大で35、最大で40、最大で45若しくは最大で50の又はそれ以上の独立したプロセスを含み得る。独立したプロセスは、状態のタイプから状態を識別することができる。例えば、状態のタイプは、病状、医療処置、薬物治療、治療、診断又は費用であり得る。プロセス(例えば、独立したプロセス)は、テキスト文字列を処理することができる。いくつかの実施形態では、プロセスは、テキスト文字列全体を処理する。いくつかの実施形態では、プロセスは、テキスト文字列の関連部分を識別することができる。独立したプロセスによって識別される複数の状態の決定については、図9に関してさらに詳細に説明する。
[0051] テキスト文字列又は1つ若しくは複数の状態は、識別された状態に基づいて分類することができる(470)。いくつかの実施形態では、テキスト文字列を分類することは、1つ又は複数の状態に基づいて結果を決定することを含み得る。結果を決定することは、結果の確率を決定することを含み得る。結果は、複数の状態に基づいて最も起こり得る結果を識別するためにアグリゲータを使用して決定することができる。複数の状態に基づく確率の高い結果の決定については、図9に関してさらに詳細に説明する。結果は、バイナリ結果であり得る。例えば、バイナリ結果は、はい、いいえ、承認、拒否、支持、拒絶及び同様のものを含み得る。結果は、非バイナリ結果であり得る。例えば、非バイナリ結果は、費用、予後又は成功率を含み得る。結果は、レポートでユーザに報告することができる。いくつかの実施形態では、レポートは、1つ又は複数の識別された状態に基づく結果及びその結果の理由を含み得る。
[0052] 自動保険金請求処理エンジン
[0053] 本開示の一態様では、ペットインボイスデータを自動的に処理し、請求処理結果を生成するための保険金請求処理エンジンが提供される。保険金請求処理エンジンは、本明細書の他の場所で説明されるように、人間がほとんど又は全く介入することなく、請求処理の速度及び正確度を改善するために、機械学習技法を採用することができる。
[0054] 提供される保険金請求処理エンジンは、予測レイテンシを低減するために、並列処理アーキテクチャを採用することができる。例えば、保険金請求処理エンジンは、多数の状態推論エンジンを含み得、その各々は、訓練済み分類器又は予測モデルを含む。多数の状態推論エンジンは、入力請求データを処理するために並列動作することができ、多数の状態推論エンジンの出力は、請求処理出力を生成するために集約することができる。単一の分類器の代わりに、並列動作する多数の訓練済み分類器を利用することにより、総予測レイテンシを有益に低減することができる。その上、多数の状態推論エンジンは、独立して動作することができ、それにより、他の予測モデルの性能に影響を及ぼすことなく、個々の予測モデルの再訓練、更新又は管理における柔軟性が提供される。
[0055] いくつかの事例では、保険金請求処理エンジンは、保険製品に基づいて負荷を分散させる最適化された並列データ処理メカニズムを採用することができる。例えば、異なる保険製品に関連する入力請求データは、同じ状態に対応する異なるモデルにルーティングすることができる。異なるモデルの選択及び入力請求データのルーティングは、保険製品の違いに依存し得る。例えば、2つの保険製品が、待ち時間などの保険製品の時間制約を除いて、同じである際である。待ち時間は、大体、保険金請求を処理するか又は事象を分類するための待ち時間であり得る。保険金請求処理エンジンは、2つの別個の独立した待ち時間モデル(両方とも待ち時間状態を予測するためのものである)をスピンアップし、適切なモデルにトラフィックをルーティングすることができ、その間依然として他のあらゆるモデルを利用することができる。例えば、保険金請求処理エンジンは、同じ状態に対応する2つの異なる機械学習アルゴリズム訓練済みモデルを提供し、2つの異なる機械学習アルゴリズム訓練済みモデルからモデルを選択して、保険製品/事象の特徴に基づいて入力特徴を処理することができる。最適化された負荷分散メカニズムは、保険製品の異なる特徴に対応する異なるモデル(同じ状態を予測するためのもの)にデータストリームを動的にルーティングすることによって、請求処理の効率を有益に改善することができる。
[0056] 図8は、本発明のいくつかの実施形態による、保険金請求処理システム800を概略的に示す。保険金請求処理システム800は、保険金請求処理エンジン810を含み得、保険金請求処理エンジン810は、多数の状態推論エンジン813-1、813-2、...813-nを含み、その各々は、対応する変換エンジン811-1、811-2、...811-nによって生成された入力特徴を受信するように構成される。保険金請求処理システムは、多数の並列パイプラインを含み得、各パイプラインは、変換エンジン及び状態推論エンジンを含む。多数の状態推論エンジンの出力は、出力データ809を生成するために、アグリゲータ815によって集約される。出力データ809は、保険金請求処理結果に関連し得る。いくつかの例では、出力データは、さらに、保険金請求処理結果を生成するために、代理人によって、その妥当性確認又は処理を行うことができる。
[0057] 本開示のいくつかの実施形態では、保険金請求処理システム800は、入力データの受信及び前処理を行うように構成されたデータ入力モジュール803を含み得る。いくつかの事例では、データ入力モジュール803は、保険金請求の提出を示す要求データ801を受信することができる。要求データ801は、ユーザ(例えば、ペットの飼い主)によってクライアントアプリケーションを介して提出することも、獣医診療所によって獣医クライアントアプリケーションを介して提出することもできる。
[0058] いくつかの事例では、要求データは、オンラインフォーム提出、Eメールテキスト、ワープロドキュメント、ポータブルドキュメントフォーマット(PDF)、テキスト(例えば、インボイス)の画像又は他の書式として受信された請求データを含み得る。データ入力モジュール803は、光学文字認識(OCR)又は文字起こしなど、請求データを抽出するための任意の適切な技法を利用することができる。OCR及び文字起こし方法についての詳細は、図8A~8Dに関して説明する。
[0059] いくつかの事例では、データ入力モジュール803によって受信される入力データは、保険金請求と関連付けられた請求データベース及び/又は多種多様な請求書及びドキュメントから得られる請求データを含み得る。上記で説明されるように、入力データは、請求データストア805又は保険システムから得られる構造化請求データなどの保険金請求に関連し得る。例えば、構造化請求データは、獣医診療所又はペットの飼い主によって、動物病院の実務管理システムを介して電子的に又は別の方法で、カスタム化された請求書式で提出することができる。いくつかの事例では、構造化請求データは、ペット又は治療についての保険証券ID/番号、病気/怪我又は他のフィールドなどのテキストデータを含み得る。いくつかの事例では、入力データは、JavaScriptオブジェクト表記法(JSON)データなどの構造化テキストデータを含み得る。任意選択の事例では、入力データは、保険金請求書、インボイスの画像、医療報告書、警察の捜査報告書、Eメール又はウェブベースのコンテンツなどの請求に関連する非構造化データを含み得る。Eメール又はインボイスの画像などの非構造化入力データは、保険金請求処理エンジン810による処理の前に請求データを抽出するために、データ入力モジュール803によって処理することができる。
[0060] いくつかの事例では、データ入力モジュール803は、データ入力モジュールと1つ又は複数のデータベースとの間の接続を提供するデータ統合エージェントを含み得る。データ統合エージェントは、抽象化エンジンを含み得、抽象化エンジンは、様々な管理システムとの通信を可能にし、また、アドホックモードで将来において追加のものと統合する能力も有する。例えば、データ抽象化エンジンは、任意のデータベース、記憶システム及び/又はシステムによって格納されているか若しくは存続している格納データ上において、データ抽象化層を提供することができる。データ抽象化層は、様々な受信データベースアクセス要求を基本的なデータベースの適切なクエリに置き換えるための置換規格及びマッピングのための様々なコンポーネント、サブシステム及び論理を含み得る。例えば、データ抽象化層は、保険金請求処理エンジン/アプリケーションと基本的な物理データとの間に位置する。データ抽象化層は、データを格納する基本的な物理メカニズム(例えば、データベース)に疎結合された論理フィールドの集合体を定義することができる。論理フィールドは、基本的なデータベースに格納されたデータの検索、回収、追加及び修正を行うためのクエリの作成に利用可能である。これにより、有益には、保険金請求処理システムは、統一インタフェースを介して様々なデータベース又は記憶システムと通信することができる。
[0061] いくつかの実施形態では、データ入力モジュール803は、図8Aに示されるように、1つ又は複数のデータリソース809と連通することができる。例えば、データ入力モジュールは、アプリケーションプログラミングインタフェース(API)を介してなど、1つ又は複数のシステム、プラットホーム又はアプリケーションから入力データを受信することができる。いくつかの事例では、1つ又は複数のデータソースは、生の入力データを処理するための光学文字認識(OCR)エンジン又は文字起こしエンジンを含み得る。或いは、OCRエンジン又は文字起こしエンジンは、1つ又は複数のデータソースから受信された入力データを処理するデータ入力モジュールの一部であり得る。
[0062] OCRエンジン809-1は、上記で説明されるように、画像ファイル、PDFファイル、スキャンしたドキュメント、写真又は他の様々なタイプのファイルからテキストデータを認識することが可能であり得る。OCRエンジンは、テキストデータを認識するために画像を処理するための任意の適切な技法又は方法を利用することができる。例えば、OCRエンジンは、デスキュー、デスペックル、2値化、ゾーニング、文字切り出し又は正規化などの前処理技法や、パターンマッチング、パターン認識などのテキスト認識技法や、特徴抽出又はニューラルネットワークのためのコンピュータビジョン技法や、近傍解析又は語彙制約の適用などの後処理技法を含み得る。いくつかの事例では、OCRエンジンは、単一の文字に集中する代わりに、テキストのライン全体を認識するように訓練されたニューラルネットワークを含み得る。OCRの出力は、識別されたテキストの場所、予測されたテキスト及び予測の信頼度を含み得る。
[0063] 本開示のOCRエンジンは、独自のアルゴリズムを採用することによって、テキスト認識の正確度又は成功率を改善することができる。そのアルゴリズムにより、OCRは、無関係なテキストを無視しながら、請求処理に関係するテキストを正確に抽出することができる。例えば、OCRアルゴリズムは、画像を処理し、インボイス番号、ペット名、治療ラインアイテム、価格、消費税、小計、割引及び他の様々な請求データなどの請求関連の情報を抽出することができる。
[0064] いくつかの実施形態では、OCRアルゴリズムは、(i)画像の1つ又は複数のアンカー(すなわち、アンカーワード)を識別し、(ii)、アンカーに基づいて境界を決定し、(iii)境界内のテキストデータを抽出するために実行することができる。いくつかの事例では、OCRアルゴリズムは、テキストデータに対して識別されたプロパティに少なくとも部分的に基づいてテキストデータのサブセットをグループ分けすることによって、ワードの組合せをさらに決定することができる。図8B~8Dは、OCRアルゴリズムによって処理される入力データの例を示す。
[0065] 図8Bは、OCRアルゴリズムによって処理される画像の例を示す。生の入力データは、インボイスの画像であり得る。画像は、1つ又は複数のアンカーワード821を含み得る。いくつかの事例では、アンカーは、ドキュメントの既知のフォーマットに基づいて事前に決定されたテキストデータであり得る。例えば、ドキュメントがインボイスである場合は、アンカーは、日付、内訳、数量、単価、割引、消費税、金額などであり得る。アンカーは、請求処理に関連するアイテムであり得る。いくつかの事例では、アイテムは、ラインアイテムであり得、「日付」というアイテムに対する「3/29/2021」や、「数量」というアイテムに対する「1.00」などのアイテムの値は、アイテムに対する既知の場所に位置し得る。アイテム値の場所(例えば、画像座標又はx-y座標)は、対応するアイテムの検出された場所(例えば、内訳の座標)及びドキュメントの既知のフォーマットに基づいて決定することができる。
[0066] OCRアルゴリズムは、画像ドキュメントから1つ又は複数のアンカーを識別することから始めることができる。図8Cは、画像入力から識別されたアンカーの例を示す。画像処理の出力831は、識別されたアンカー(例えば、内訳、数量、小計)の座標(x,y)及び予測信頼(例えば、95)などのアンカーのプロパティ833を含み得る。いくつかの事例では、座標は、画像座標であり得る。他のユーザ定義座標を使用することができる。また、出力は、アンカーのレベル、ページ番号、ブロック番号、パラグラフ番号、ワード番号、幅、高さ及び予測されたテキストなど、識別されたアンカーの他のプロパティも含み得る。
[0067] 次に、OCRアルゴリズムは、アンカーの値アイテム(例えば、ラインアイテムテキスト)を分離するために、アンカーの場所に対する境界を決定することができる。例えば、「アイテム内訳」のアイテム値が[0,0]~[0,100]軸に沿って左揃えになり、単価が[100,0]~[100,100]軸に沿って左揃えになるという既知のフォーマットに基づいて、[x,y]座標の[0,0]で「アイテム内訳」というアンカーが識別され、座標[100,0]で「単価」が識別され、座標[100,100]で「小計」が識別され次第、境界の場所が決定される。示される例835では、「内訳」に対するアイテム値のテキストは、境界内にフィルタリングされ、OCRエンジンのニューラルネットワークを使用して識別される。出力835は、座標(例えば、画像座標、x-y座標)及び信頼レベルなどの認識されたアイテム値の様々なプロパティや、レベル、テキスト幅、高さ、予測されたテキスト、ページ番号、ブロック番号、パラグラフ番号、ライン番号及び同様のものなどの他の様々なプロパティを含み得る。いくつかの事例では、パディング(例えば、+/-5)を使用して、境界を調整し、すべてのテキストが確実に識別されるようにすることができる。
[0068] いくつかの事例では、境界の場所は、ドキュメントの既知のフォーマットに基づいて決定することができる。例えば、対応するアンカーに対するラインアイテム値の場所は、実務管理ソフトウェアのインボイスフォーマット又はブランディングに基づいて知ることができる。フォーマットは、獣医クリニックによって利用される実務管理ソフトウェアごとに異なり得る。いくつかの事例では、システムは、処理予定の保険金請求又はドキュメントの様々なフォーマットを事前に格納しておくことができ、アルゴリズムは、境界を決定するためにそれぞれのフォーマットを呼び出すことができる。
[0069] OCRアルゴリズムは、テキストデータに対して識別されたプロパティに少なくとも部分的に基づいてテキストデータのサブセットをグループ分けすることによって、ワードの組合せを決定することができる。例えば、OCRアルゴリズムは、オリジナルのワードの組合せに対応するグループ分けされたラインアイテムを形成するために、識別されたラインアイテムテキスト/ワードをさらに処理することができる。いくつかの事例では、テキストデータに対して識別されたプロパティは、ワードと関連付けられた場所又は座標であり得る。図8Dは、ライン番号によってグループ分けされた、分離されたラインアイテムテキストの例を示す。テキスト又はワードの組合せのグループは、ラインアイテム(例えば、患者の意志検査/診察)に対応し得る。グループ分けされたラインアイテム又はワードは、本明細書の他の場所で説明されるように、ワードの組合せであり得る。
[0070] 或いは、アンカーを事前に決定する代わりに、OCRアルゴリズムは、ラインアイテムである可能性が高いか又はアンカーである可能性が高いテキストを識別することができる訓練済みモデルを有し得る。例えば、アンカーワードは、機械学習アルゴリズム訓練済みモデルを使用してラインアイテムワードの存在を予測することによって識別される。いくつかの事例では、モデルは、生の入力画像を処理して、アンカーである可能性が高いテキストを予測することができる訓練済みニューラルネットワークであり得る。これにより、有益には、未知のフォーマットのドキュメントからアンカーを識別することができる。モデルは、テキストがラインアイテムであるか否かを示すラベルを含む訓練データを使用して訓練することができる。いくつかの事例では、それぞれのラインアイテム値の境界もまた、訓練済みモデルを使用して予測することができる。
[0071] 図8Aに戻ると、文字起こしエンジン809-2は、音声ファイルをテキストに文字起こしすることが可能であり得る。例えば、ユーザは、インボイス又はインボイスの一部分を読み上げ、ユーザアプリケーションを介して音声ファイルを提出することができる。次いで、文字起こしエンジンは、音声ファイルを処理してインボイスを文字起こしすることができる。文字起こしされたインボイスデータは、構造化テキストデータをさらに抽出するために、データ入力モジュールによって受信することができる。
[0072] 図8に戻ると、いくつかの事例では、データ入力モジュール803は、要求データ801を受信次第、関連データを回収するために、1つ又は複数のデータベース807と連通することができる。例えば、要求データ801は、ペット名、病気、保険証券ID及び同様のものなどの情報を含み得、データ入力モジュール803は、ペット名、保険契約者名及び同様のものに基づいて、過去のデータ(例えば、任意の獣医診療所からのペットの治療歴、請求歴、他の保険プロバイダからのデータなど)を履歴データベースから回収することができる。いくつかの例では、データ入力モジュール803は、提出された請求の妥当性を確認するために、保険証券IDに基づいて、保険補償プラン、保険証券又は他の関連データ(例えば、事前許可確認規則)を回収することができる。
[0073] いくつかの事例では、データ入力モジュール803は、保険金請求処理エンジンによって処理される請求データの抽出及び/又は生成を行うために、入力データを前処理することができる。いくつかの事例では、データ入力モジュール803は、請求データを抽出するために、要求データからデータポイントを抽出するための予測モデル又は自然言語処理技法(NPL)を採用することができる。データ入力モジュールは、入力テキストの構文解析を実行するために、パーサなどの任意の適切なNLP技法を採用することができる。パーサは、入力ドキュメントのテキストコンテンツを構文的に、意味的に及び語彙的に解析し、ドキュメントのテキストフラグメント間の関係を識別するための命令を含み得る。パーサは、辞書若しくは「語彙」で見つかるか又は形態的な処理(語彙解析段階で組織化される)を通じて導出される個々のワードについての構文的な及び形態的な情報を利用する。例では、入力データ解析プロセスは、アイテムの作成、セグメンテーション、語彙解析及び構文解析を含む複数の段階を含み得る。
[0074] いくつかの事例では、データ入力モジュール803は、請求データセットを得るために、データクレンジング(例えば、テキストデータに存在するスペルミス、句読点の誤り及び文法上の誤りなどのノイズを除去すること、若しくは、専門用語を標準語に修正すること)又は他のプロセスを実行することができる。いくつかの事例では、データ入力モジュール803は、様々なデータソースから受信又は回収されたデータを集め、集めた請求データセットをさらなる処理のために多数の変換エンジンに送信することができる。
[0075] 多数の変換エンジン811-1、811-2、...811-nは、対応する状態推論エンジンに供給される入力特徴を生成するように構成することができる。本明細書の他の場所で説明されるように、変換エンジンは、テキストデータを数値(例えば、一次元アレイ、二次元アレイなど)に変換することができる。いくつかの事例では、多数の変換エンジン811-1、811-2、...811-nによって受信されるデータは、同じテキストデータであり得、各変換エンジンは、入力データから特定のワード/ワードの組合せに変換するように構成することができる。その代替として又はそれに加えて、多数の変換エンジンによって受信されるデータは、異なるものであり得る。例えば、データ入力モジュールは、状態又は事象に基づいて、多数の変換エンジンに送信されるデータを区分化することができる。
[0076] いくつかの事例では、変換エンジン又はデータ入力モジュールは、翻訳層をさらに含み得る。翻訳層は、(i)多数の機械学習アルゴリズム訓練済みモデル、変換エンジン又は状態推論エンジンのデータ分布範囲外のワードを識別することと、(ii)多数の機械学習アルゴリズム訓練済みモデル、変換エンジン又は状態推論エンジンのデータ分布範囲内の置換ワードにそのワードを置き換えることとが可能であり得る。翻訳層は、以前は見られなかったテキストをモデルのデータ分布範囲内のテキストに置き換えることが可能であり得る。これにより、有益には、見られなかったテキストのためのモデルの再訓練又は新しいモデルの訓練を回避することができる。例えば、第1の獣医市場(例えば、国A)が見慣れない治療又は薬物治療を使用した場合、請求処理エンジンは、見慣れないテキストを識別し、それらを第2の市場(例えば、国B)で使用される類似した治療又は薬物治療に置き換えることができる。見慣れないテキストの識別及び翻訳は、テキストの発生の頻度に基づいて実行することができる。例えば、すべての薬物治療及び治療の発生の頻度を測定することができる。薬物治療「A」が、国Aの請求の10%及び国Bの請求の0%で発生し、薬物治療「B」が、国Aの請求の0%及び国Bの請求の10%で発生した場合は、「A」と「B」は、言語対の候補であると決定するか、又は、「B」を「A」の置き換えとして提案することができる。いくつかの事例では、言語対又は置き換えは、その分野の専門家によって検証することができる。いくつかの事例では、翻訳層は、見慣れないテキスト/ワードを識別し、それを見慣れたテキスト又は置換ワードに置き換えるための訓練済みモデルを含み得る。
[0077] 変換エンジン及び入力データモジュールは、例示を目的とすることに留意すべきである。システムは、追加の任意のコンポーネント、サブコンポーネントを含むことも、より少ないコンポーネントを含むことも可能である。例えば、入力データモジュールの機能の少なくとも一部分を変換エンジンが実行できるように、入力データモジュールは、変換エンジンの一部であり得る。同様に、OCRエンジン又は文字起こしエンジンは、データ入力モジュールの一部であり得る。データ入力モジュールは、上記で説明されるようなOCR方法又は文字起こし方法の1つ又は複数の動作を実行するために、OCRアルゴリズム又は文字起こしアルゴリズムを実装することができる。
[0078] 多数の変換エンジン811-1、811-2、...811-nによって生成された入力特徴は、対応する状態推論エンジン813-1、813-2、...813-nに供給することができる。状態推論エンジンは、特定の状態を識別するための訓練済み分類器又は予測モデルを含み得る。状態推論エンジンは、本明細書の他の場所で説明されるように、ディープラーニング技法を採用して、入力特徴を処理し、出力814-1、814-2、...814-nを生成することができる。例えば、状態推論エンジンは、保険金請求に関連する特定の病状を出力するため、予測モデルを使用して、対応する変換エンジンによって生成された入力特徴を処理することができる。予測モデルは、図3で説明されるものと同じものであり得る。予測モデルは、本明細書の他の場所で説明されるように、これらに限定されないが、教師なしクラスタリング法(例えば、K最近傍法)、サポートベクタマシン(SVM)、ナイーブベイズ分類、ランダムフォレスト、木ベースのアンサンブルモデル、畳み込みニューラルネットワーク(CNN)、フィードフォワードニューラルネットワーク、放射基底関数ネットワーク、回帰型ニューラルネットワーク(RNN)、深層残差学習ネットワーク及び同様のものを含む、任意の適切なタイプのものであり得る。
[0079] 状態推論エンジンの出力814-1、814-2、...814-nは、状態のタイプを含み得る。状態のタイプは、例えば、歯の治療、予防治療、医療処置、食事療法、健康診断、薬物治療、末期医療又は治療部位など、医療のカテゴリ又は記述を含み得る。状態のタイプは、例えば、費用又は割引など、請求カテゴリであり得る。状態のタイプは、例えば、持病、疾患又は病気など、被験者の健康状態であり得る。出力814-1、814-2、...814-nは、1つ若しくは複数の状態のタイプの存在又は状態の存在の可能性を示し得る。例えば、第1の出力814-1は、医療の記述であり得、第2の出力814-2は、費用であり得る。アグリゲータ815は、保険金請求処理エンジン810の最終結果として出力データ809を生成するために、出力814-1、814-2、...814-nを組み合わせることができる。
[0080] 出力データ809は、保険金請求処理の結果であり得る。出力データは、処理された請求の決定又はステータスを示し得る。例えば、出力データは、承認、拒否、支持、拒絶及び同様のものなどの保険金請求のステータスを含み得る。いくつかの事例では、出力データ809は、請求承認の信頼レベル又は詐欺の可能性などのステータス/決定の確率を含み得る。いくつかの事例では、アグリゲータ815又は状態推論エンジンのうちの1つ若しくは複数は、ビジネスルールに基づいてステータス/決定の確率を生成することができる。
[0081] いくつかの事例では、決定の確率などの出力データ809は、多数の状態推論エンジンの個々の出力に基づいて決定することができる。例えば、アグリゲータ815は、確率を生成するために、状態推論エンジン813-1、813-2、...813-nの各々からの出力814-1、814-2、...814-nを集約することができる。いくつかの事例では、状態推論エンジンの各々からの出力814-1、814-2、...814-nは、状態のタイプの確率であり得る。アグリゲータ815は、任意の適切な方法(例えば、線形結合、非線形結合)を利用して、出力814-1、814-2、...814-nを組み合わせることができる。任意選択の事例では、アグリゲータは、ビジネスルールに少なくとも部分的に基づいて出力データを生成するために予測モデルを含み得る。
[0082] いくつかの事例では、出力データ809は、例えば、請求拒否の理由などの説明を含み得る。説明は、状態推論エンジン及び/又はビジネスルールの出力として1つ又は複数の識別された状態に基づいて決定することができる。いくつかの事例では、説明は、1つ又は複数の識別された状態に基づいて生成された暗黙的洞察(例えば、潜在的な不正)であり得る。出力は、多数の状態又は状態の少なくとも一部分を集約することによって推論された洞察(例えば、潜在的な不正)を含み得る。いくつかの事例では、説明は、代理人による請求のさらなる妥当性確認を支援するための識別された状態のうちの1つ又は複数を含み得る。
[0083] いくつかの事例では、事象のステータス又は最終的な出力は、承認、拒否又はさらなる妥当性確認動作の要求を含み得る。いくつかの例では、確率又は信頼レベルに基づいて、保険金請求のさらなる妥当性確認/検証を行うために、人間の介入が必要であり得る。例えば、保険金請求の承認の信頼レベルが既定の信頼閾値(例えば、80%、90%又は99%)を下回ると、出力データ809及び関連付けられる保険金請求は、代理人によるさらなる見直し/処理のために、ユーザインタフェースモジュールに送信することができる。いくつかの事例では、代理人によって提供されたフィードバック又は入力は、状態推論エンジンの訓練/再訓練のために、システムによって収集することができる。いくつかの例では、人間の介入は、支払額に基づいて必要とされ得る。例えば、支払いが既定の閾値(例えば、500ドル)を超えることを識別された状態が示す際は、代理人による見直しのために、出力データ809(例えば、支払額)を保険金請求と共にユーザインタフェースに送信することができる。
[0084] いくつかの事例では、出力データ809は、代理人による保険金請求の妥当性確認又はさらなる処理を支援するための情報を含み得る。例えば、出力データ809は、多数の状態推論エンジンのうちの1つ又は複数によって識別された健康状態を含み得、疑わしい健康状態若しくは状態をハイライトし、ビジネスルールに基づいて代理人に対する推奨を生成し、又は、代理人が理解し易い表現に翻訳された他の識別された状態を含み得る。
[0085] 保険金請求処理システムは、独立して動作及び作業することができるスタンドアロンシステム又は自己完結型コンポーネントであり得、他のシステム又はエンティティ(例えば、予測モデル作成及び管理システム、保険システム、第三者ヘルスケアシステムなど)と連通することができる。或いは、保険金請求処理システムは、別のシステムのコンポーネント又はサブシステムであり得る。いくつかの事例では、本明細書で提供される保険金請求処理システムは、そのプラットホーム上で開発された事前構築された産業間共通のアプリケーションのスイートを提供するように構成されたサービスとしてのプラットホーム(PaaS)及び/又はサービスとしてのソフトウェア(SaaS)アプリケーションであり得、様々なエンティティによる保険金請求処理の自動化を促進する。いくつかの事例では、保険金請求処理システムは、アプリケーション及び/又はソフトウェアがローカルでホストされるオンプレミスプラットホームであり得る。
[0086] 保険金請求処理システム又は保険金請求処理システムの1つ若しくは複数のコンポーネントは、ソフトウェア、ハードウェア又はその両方の組合せを使用して実装することができる。例えば、保険金請求処理システムは、1つ又は複数のプロセッサを使用して実装することができる。プロセッサは、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、汎用処理ユニットなどのハードウェアプロセッサ(シングルコア若しくはマルチコアプロセッサであり得る)又は並列処理のための多数のプロセッサであり得る。プロセッサは、コンピューティングプラットホーム又はマイクロプロセッサ、論理デバイス及び同様のものなど、任意の適切な集積回路であり得る。本開示は、プロセッサに言及して説明しているが、他のタイプの集積回路や論理デバイスも適用することができる。プロセッサ又は機械は、データ操作能力による制限を受けない。プロセッサ又は機械は、512ビット、256ビット、128ビット、64ビット、32ビット又は16ビットのデータ操作を実行することができる。
[0087] 図9は、複数のプロセスにおいて識別された複数の状態に基づいて確率の高い結果を決定するための方法900のワークフローを示す。方法900は、図8で説明されるような保険金請求処理システムによって実施することができる。テキストデータ(例えば、構造化テキストデータ)は、複数のプロセスの各プロセスに提供することができる(910)。テキストデータは、例えば、図1に関して説明される変換済みのデータ120など、変換済みのテキストデータを含み得る。テキストデータは、構造化することができる。いくつかの実施形態では、テキストは、情報のタイプを示すように構造化することができる。テキストは、被験者情報、事象情報、サポート情報又はそれらの組合せを区別するように構造化することができる。例えば、テキストは、アイテム内訳、治療、処置、診断、被験者名、過去のデータ、保険補償又はそれらの組合せを示すように構造化することができる。いくつかの実施形態では、構造化テキストデータは、JavaScriptオブジェクト表記法(JSON)データを含み得る。状態プロセス920(例えば、第1の状態プロセス、第2の状態プロセス、第3の状態プロセス又はn番目の状態プロセス)は、テキストデータに基づいて状態を決定することができる。
[0088] 状態プロセスは、状態のタイプから状態を識別することができる。プロセスは、状態のタイプから状態を決定することができる。いくつかの実施形態では、状態のタイプは、歯の治療、予防治療、医療処置、食事療法、健康診断、薬物治療、末期医療、治療部位、費用、割引、持病、疾患又は病気であり得る。いくつかの実施形態では、状態プロセスは、独立した状態プロセスであり得る。いくつかの実施形態では、プロセスは、被験者のアイデンティティを検証することができる。独立した状態プロセスは、第2の状態プロセスから影響を受けることなく、状態を決定することができる。例えば、第1の独立した状態プロセスは、第2の状態プロセス、第3の状態プロセス又はn番目の状態プロセスのうちの1つ又は複数から独立して、第1の状態を決定することができる。独立したプロセスは、第2の状態プロセスから独立して機能することができ、その結果、第2の状態プロセスにおけるエラーが状態プロセスの機能性を中断することはない。いくつかの実施形態では、2つ以上の独立したプロセスは、並列で実施することができる。2つ以上の独立したプロセスを並列で実施することにより、プロセスを実施する速度を上げることによってコンピュータ機能性を向上させることができる。例えば、第1の状態プロセスは、第1の中央処理装置(CPU)、CPUコア又はグラフィックス処理ユニット(GPU)上で実施し、第2の状態プロセスは、第2のCPU、CPUコア又はGPU上で実施し、第3の状態プロセスは、第3のCPU、CPUコア又はGPU上で実施し、n番目の状態プロセスは、n番目のCPU、CPUコア又はGPU上で実施することができる。いくつかの実施形態では、状態プロセスは、従属する状態プロセスであり得る。従属する状態プロセスは、第2の状態プロセスに依存して状態を決定することができる。例えば、第1の従属する状態プロセスは、第2の状態プロセス、第3の状態プロセス又はn番目の状態プロセスのうちの1つ又は複数に基づいて、第1の状態を決定することができる。
[0089] 複数の状態プロセスから識別された複数の状態は、集約して(930)、複数の状態に基づいて確率の高い結果を決定することができる(940)。結果は、バイナリ結果であり得る。例えば、バイナリ結果は、はい、いいえ、承認、拒否、支持、拒絶及び同様のものを含み得る。結果は、非バイナリ結果であり得る。例えば、非バイナリ結果は、費用、診断、予後又は成功率を含み得る。結果の確率は、各状態と結果との関連付けの個々の確率に基づいて決定することができる。いくつかの実施形態では、結果の確率は、機械学習を使用して決定することができる。いくつかの実施形態では、結果の確率は、各状態と結果との関連付けの個々の確率を数学的に組み合わせることによって決定することができる。確率の高い結果は、アグリゲータによって決定された最高確率を有する結果であり得る。確率の高い結果は、アグリゲータによって決定された結果の信頼について説明する信頼レベルを含み得る。信頼レベルは、1つ又は複数の状態からの1つ又は複数の確率から決定することができる。信頼レベルは、構造化テキストデータからの1つ又は複数のタイプの情報から決定することができる。いくつかの実施形態では、構造化テキストデータからの1つ又は複数のタイプの情報は、信頼レベルを決定する際は無視することができる。確率の高い結果は、例えば、確率の高い結果を識別した理由などの説明を含み得る。説明は、1つ又は複数の状態から決定することができる。
[0090] 図10は、自動保険金請求処理のための方法及びシステムを実装することができるプラットホーム1000を概略的に示す。プラットホーム1000は、1つ又は複数のユーザデバイス1001、1028、保険システム1020、1つ又は複数の第三者エンティティ/システム1030及びデータベース1031、1033を含み得る。コンポーネントの各々は、ネットワーク1050を介して又はあるコンポーネントから別のコンポーネントへのデータ送信を可能にする任意のタイプの通信リンクを介して、互いに動作可能に接続することができる。
[0091] 保険システム1020は、予測モデル作成及び管理システム1021、保険金請求処理システム1023、保険アプリケーション1027又は他のコンポーネントなど、1つ又は複数のコンポーネントを含み得る。保険システム1020は、1つ又は複数のコンピューティング資源又はハードウェアデバイスとして実装することができる。保険システム1020は、1つ又は複数のサーバコンピュータ、1つ又は複数のクラウドコンピューティング資源及び同様のものにおいて実装することができ、各資源は、1つ又は複数のプロセッサ、メモリ、永続記憶装置及び同様のものを有する。例えば、保険システム1020は、ペットの飼い主1003及び/又は獣医診療所1030に保険アプリケーション1027を提供するためのウェブサーバ、オンラインサービス、ペット保険管理コンポーネント及び同様のものを含み得る。例えば、ウェブサーバは、ハードウェアウェブサーバ又はソフトウェア実装ウェブサーバとして実装することができ、ウェブページを生成して、ブラウザを使用する各コンピューティングデバイス1001、1028と交換することができる。
[0092] 保険アプリケーション1027は、病院と保険システムとの間の情報交換を可能にする、獣医診療所1030のためのソフトウェアアプリケーション(すなわち、クライアントソフトウェア)を含み得る。例えば、病院/獣医診療所デバイス(例えば、クライアント/ブラウザ)上で走らせているアプリケーションは、請求の提出、保険サービスのオファーの発行、クライアントのためのPIMSデータの検索、予約、システム間のクライアントのマッピング及び獣医診療所の従業員が消化できる方法でのこれらの活動のすべての情報の表示を可能にすることができ、患者のケアが改善される。アプリケーションは、クラウド駆動のアプリケーション又はローカルアプリケーションであり得る。また、保険アプリケーション1027は、ペットの飼い主のためのソフトウェアアプリケーション(すなわち、クライアントソフトウェア)を提供することもできる。クライアントアプリケーションにより、ペットの飼い主1003は、ペット保険に加入することや、保険金請求/インボイスを提出することや、提出した請求のステータス並びにそれらの請求の結果及び支払いを追跡することや、同様のことができる。
[0093] 保険アプリケーション1027又は予測モデル作成及び管理システムは、コンテナ及び/又はマイクロサービスなどの任意の適切な技術を採用することができる。例えば、保険アプリケーションは、コンテナ化アプリケーションであり得る。保険システムは、コンテナ内で保険アプリケーション又はサービスを実施するなど、ソフトウェアインフラクチャにおいてマイクロサービスベースのアーキテクチャを展開することができる。別の例では、クラウドアプリケーション及び/又は予測モデル作成及び管理システムは、マイクロサービスによって支えられるモデル管理コンソールを提供することができる。
[0094] いくつかの実施形態では、ユーザ(例えば、ペットの飼い主1003、獣医診療所1030)は、ユーザデバイスを利用して、ユーザデバイス1001上で走らせている及び/又はユーザデバイス1001によってアクセスされる1つ又は複数のソフトウェアアプリケーション(すなわち、クライアントソフトウェア)によって、保険システム1020と対話することができ、ユーザデバイスと保険システム1020は、クライアント/サーバ関係を築くことができる。
[0095] いくつかの実施形態では、クライアントソフトウェア(すなわち、ユーザデバイス1001上にインストールされたソフトウェアアプリケーション)は、様々なタイプのモバイルデバイス用のダウンロード可能なモバイルアプリケーションのいずれかとして利用可能であり得る。或いは、クライアントソフトウェアは、様々なウェブブラウザによる実行のために、1つ又は複数のプログラミング言語及びマークアップ言語の組合せで実装することができる。例えば、クライアントソフトウェアは、JavaScript及びHTMLレンダリング(Chrome、Mozilla Firefox、Internet Explorer、Safariなど)をサポートするウェブブラウザ並びに他の任意の互換性のあるウェブブラウザで実行することができる。クライアントソフトウェアアプリケーションの様々な実施形態は、複数のプラットホームにわたって様々なデバイスに対してコンパイルすることができ、それらのそれぞれのネイティブプラットホームに対して最適化することができる。いくつかの事例では、クライアントソフトウェアにより、ユーザは、インボイスの画像を捕捉することによって保険金請求を提出することができる。例えば、ユーザは、ユーザモバイルデバイス上で走らせているユーザインタフェース(例えば、モバイルアプリケーション)を介して保険金請求を提出することが許可されていたり、ユーザは、モバイルデバイスのカメラで保険の記入用紙をスキャンするように促されたり、ユーザは、保険金請求処理システム1023によって生成された請求処理結果を受信したりすることが可能である。提供される保険金請求処理システム及び方法は、処理時間を削減して請求を処理することができ、それにより、ユーザ請求処理経験を向上させることができる。
[0096] ペットの飼い主又は獣医診療所と関連付けられたユーザデバイス1001、及び、保険金請求の処理又は予測モデルの管理のための代理人と関連付けられたユーザデバイス1028は、1つ又は複数の動作(例えば、請求提出のためのユーザインタフェースのレンダリング、請求ステータスの見直し、保険金請求処理システムの最終的な出力の見直し、請求の妥当性確認、請求の処理など)を実行するように構成されたコンピューティングデバイスであり得る。ユーザデバイスの例は、これらに限定されないが、モバイルデバイス、スマートフォン/携帯電話、着用可能デバイス(例えば、スマートウォッチ)、タブレット、携帯情報端末(PDA)、ラップトップ若しくはノートパソコン、デスクトップコンピュータ、メディアコンテンツプレーヤ、テレビ、ビデオゲームステーション/システム、仮想現実システム、拡張現実システム、マイク、又は、特定のタイプのデータ(例えば、システムが生成した請求処理結果など)の解析、受信(例えば、インボイス若しくは請求書式の画像、請求書式のフィールドの修正、代理人入力データなどの受信)、ユーザへの提供又は表示が可能な任意の電子デバイスを含み得る。ユーザデバイスは、ハンドヘルドオブジェクトであり得る。ユーザデバイスは、ポータブル式であり得る。ユーザデバイスは、人間のユーザによって持ち運ぶことができる。いくつかの事例では、ユーザデバイスは、人間のユーザから離れた所に位置し、ユーザは、無線及び/又は有線通信を使用してユーザデバイスを制御することができる。ユーザデバイスは、ディスプレイ付きの任意の電子デバイスであり得る。
[0097] ユーザデバイス1001、1028は、ディスプレイを含み得る。ディスプレイは、スクリーンであり得る。ディスプレイは、タッチスクリーンであっても、タッチスクリーンでなくともよい。ディスプレイは、発光ダイオード(LED)スクリーン、OLEDスクリーン、液晶ディスプレイ(LCD)スクリーン、プラズマスクリーン又は他の任意のタイプのスクリーンであり得る。ディスプレイは、アプリケーションを通じて(例えば、ユーザデバイス上で実行されるアプリケーションプログラミングインタフェース(API)を介して)レンダリングされるユーザインタフェース(UI)又はグラフィカルユーザインタフェース(GUI)を示すように構成することができる。GUIは、請求処理要求、提出された請求のステータス、請求要求の提出に関連する対話型要素(例えば、編集可能なフィールド、請求書式など)を示し得る。また、ユーザデバイスは、インターネット上でウェブページ及び/又はウェブサイトを表示するように構成することもできる。ウェブページ/ウェブサイトのうちの1つ又は複数は、上記で説明されるように、サーバ1020によってホストすること及び/又は保険システムによってレンダリングすることができる。
[0098] ユーザデバイス1001は、1人又は複数のユーザ(例えば、ペットの飼い主)と関連付けることができる。いくつかの実施形態では、ユーザは、独自のユーザデバイスと関連付けることができる。或いは、ユーザは、多数のユーザデバイスと関連付けることができる。ユーザ(例えば、ペットの飼い主)は、保険プラットホームに登録することができる。いくつかの事例では、登録されたユーザの場合、ユーザプロフィールデータは、ユーザと一意的に関連付けられたユーザIDと共に、データベース(例えば、データベース1033)に格納することができる。ユーザプロフィールデータは、例えば、ペット名、ペットの飼い主名、地理的場所、連絡先、過去のデータ及び本明細書の他の場所で説明されるような他の様々なものを含み得る。いくつかの事例では、登録されたユーザは、クレデンシャルを用いて保険アカウントにログインするように要求され得る。例えば、保険金請求の提出又は請求のステータスの見直しなどの活動を実行するため、ユーザは、ユーザデバイス1001を介して、パスコードの提供、QRコードのスキャン、生体認証検証(例えば、指紋、顔面スキャン、網膜スキャン、音声認識など)又は他の様々な検証方法など、アイデンティティ検証を実行することによって、アプリケーションにログインするように要求され得る。
[0099] 予測モデル作成及び管理システム1021は、予測モデルの訓練及び開発を行うように構成することができる。いくつかの事例では、訓練済み予測モデルは、予測モデル更新モジュールを通じて、保険金請求処理システム1023又はエッジインフラストラクチャに展開させることができる。予測モデル更新モジュールは、展開後に、訓練済み予測モデル(例えば、状態推論エンジン)の性能をモニタすることができ、性能が既定の閾値を下回って低下する場合は、モデルを再訓練することができる。また、いくつかの事例では、予測モデル作成及び管理システム1021は、1つ又は複数の予測モデルの継続的な訓練のために、ユーザデバイス1028から送信されたデータ(例えば、代理人フィードバックデータ)又は他のデータソース1031から送信されたデータを1つ又は複数のデータベース又はクラウドストレージ1033にインジェストする上でサポートすることもできる。
[0100] 予測モデル作成及び管理システム1021は、運営及び管理の統合(データのモニタリング又はクラウド若しくはプライベートデータセンタへの格納を含む)を可能にするアプリケーションを含み得る。いくつかの実施形態では、予測モデル作成及び管理システム1021は、予測モデル性能をモニタするため及び/又は予測モデルを構成するためのユーザインタフェース(UI)モジュールを含み得る。例えば、UIモジュールは、コンピューティングデバイス1028上にグラフィカルユーザインタフェースをレンダリングし、マネージャ/代理人1029がモデル性能を閲覧できるように又はユーザフィードバックを提供できるようにすることができる。いくつかの事例では、請求処理システムによって生成された出力の妥当性確認又は状態推論エンジンによって生成された健康状態の確認など、代理人ユーザデバイス1028から収集されたデータは、1つ又は複数の予測モデルの訓練/再訓練のために、予測モデル作成及び管理システム1021によって使用することができる。
[0101] 予測モデル作成及び管理システムは保険システム1020のコンポーネントとして示されているが、予測モデル作成及び管理システムはスタンドアロンシステムであり得ることに留意されたい。予測モデル作成及び管理システムについての詳細は、図11に関して説明する。
[0102] 保険金請求処理システム1023は、本明細書で説明される開示される方法と一致する1つ又は複数の動作を実行するように構成することができる。保険金請求処理システム1023は、図8で説明されるような保険金請求処理システムと同じものであり得る。
[0103] ある構成では、保険システム1020は、サーバによるアクセスが可能なメモリ(例えば、サーバにローカル接続されたメモリ又はネットワークなどの通信リンク上でアクセス可能なリモートメモリ)に格納されたソフトウェアであり得る。従って、ある態様では、保険システムは、1つ又は複数のコンピュータとして、サーバによるアクセスが可能なメモリデバイスに格納されたソフトウェアとして又はそれらの組合せとして実装することができる。
[0104] しかし、保険金請求処理システム1023は、サーバ上でホストされることが示されている。保険金請求処理システム1023は、ハードウェアアクセラレータ、プロセッサによって実行可能なソフトウェア及び他の様々なものとして実装することができる。いくつかの事例では、保険システム1020は、データ処理及び予測がエッジ又はエッジゲートウェイで実行されるエッジインテリジェンスパラダイムを採用することができる。例えば、予測モデルのうちの1つ又は複数は、クラウド上で構築、開発及び訓練を行い、推論のためにユーザデバイス及び/又はユーザ若しくは病院にローカル接続された他のデバイス(例えば、ハードウェアアクセラレータ)上で走らせることができる。いくつかの事例では、予測モデルは、新しい請求データ及びフィードバックデータの収集に伴って、継続的な訓練を経ることができる。継続的な訓練は、クラウド上又はサーバ上で実行することができる。いくつかの事例では、新しい請求データ及び代理人フィードバックデータは、リモートサーバに送信し、モデルを更新するために使用することができ、更新されたモデル(例えば、更新されたモデルのパラメータ)は、実装のために物理システム(例えば、保険金請求処理システム1023)にダウンロードすることができる。
[0105] データ処理、予測モデルの訓練、訓練済みモデルの実行、予測モデルの継続的な訓練/再訓練、モデルモニタリング及び同様のものなど、保険システムによって実行される様々な機能は、ソフトウェア、ハードウェア、ファームウェア、埋め込みハードウェア、スタンドアロンハードウェア、アプリケーション特有のハードウェア又はこれらの任意の組合せにおいて実装することができる。予測モデル作成及び管理システム1021、保険金請求処理システム1023及び本明細書で説明される技法は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、汎用処理ユニット(シングルコア若しくはマルチコアプロセッサであり得る)又は並列処理のための多数のプロセッサ及び/又はそれらの組合せにおいて実現することができる。
[0106] また、いくつかの事例では、保険システム1020は、データ及び情報の格納や、データベース1033、1031のうちの1つ又は複数に格納されたデータ及び情報の検索、回収及び/又は解析を行うように構成することもできる。データ及び情報は、例えば、システムのための獣医診療所情報、保険サービスのオファーの各々についての情報、ペット保険システムに加入している各ペットについての情報、過去のペット保険金請求などの過去のデータ、予測モデルについてのデータ(例えば、パラメータ、モデルアーキテクチャ、訓練データセット、性能メトリクス、閾値など)、状態又は請求処理結果などの予測モデルによって生成されたデータ、フィードバックデータ及び同様のものを含み得る。
[0107] ネットワーク1050は、図10に示される様々なコンポーネント間の通信を提供するように構成されたネットワークであり得る。ネットワークは、いくつかの実施形態では、ネットワークレイアウトでデバイス及び/又はコンポーネントを接続してそれらの間の通信を可能にする1つ又は複数のネットワークとして実装することができる。直接通信は、2つ以上の上記のコンポーネント間で提供することができる。直接通信は、中間デバイス又はネットワークを必要とすることなく行うことができる。間接通信は、2つ以上の上記のコンポーネント間で提供することができる。間接通信は、1つ又は複数の中間デバイス又はネットワークを用いて行うことができる。例えば、間接通信は、電気通信ネットワークを利用することができる。間接通信は、1つ又は複数のルータ、通信塔、衛星又は他の任意の中間デバイス若しくはネットワークを用いて実行することができる。通信のタイプの例は、これらに限定されないが、インターネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、Bluetooth、近距離無線通信(NFC)技術、モバイルデータプロトコル(汎用パケット無線サービス(GPRS)、GSM、エンハンストデータGSM環境(EDGE)、3G、4G、5G若しくはロングタームエボリューション(LTE)プロトコルなど)に基づくネットワーク、赤外線(IR)通信技術及び/又はWi-Fiを介する通信を含み得、無線、有線又はそれらの組合せであり得る。いくつかの実施形態では、ネットワークは、セルラ及び/又はページャネットワーク、衛星、要免許無線機或いは要免許無線機と免許不要無線機の組合せを使用して実装することができる。ネットワークは、無線、有線又はそれらの組合せであり得る。
[0108] ユーザデバイス1001、1028、獣医診療所コンピュータシステム1030又は保険システム1020は、1つ又は複数のデータベース1033、1031に接続又は相互接続することができる。データベースは、データを格納するように構成された1つ又は複数のメモリデバイスであり得る。それに加えて、データベースは、いくつかの実施形態では、記憶装置を備えるコンピュータシステムとして実装することもできる。一態様では、データベースは、開示される実施形態と一致する1つ又は複数の動作を実行するために、ネットワークレイアウトのコンポーネントによって使用することができる。1つ又は複数のローカルデータベース及びプラットホームのクラウドデータベースは、任意の適切なデータベース技法を利用することができる。例えば、構造化クエリ言語(SQL)又は「NoSQL」データベースを利用して、請求データ、ペット/ユーザプロフィールデータ、過去のデータ、予測モデル、訓練データセット又はアルゴリズムを格納することができる。データベースのいくつかは、アレイ、ハッシュ、(リンクされた)リスト、構造体、構造化テキストファイル(例えば、XML)、テーブル、JavaScriptオブジェクト表記法(JSON)、NOSQL及び/又は同様のものなど、様々な標準データ構造を使用して実装することができる。そのようなデータ構造は、メモリ及び/又は(構造化)ファイルに格納することができる。別の代替の形態では、オブジェクト指向データベースを使用することができる。オブジェクトデータベースは、共通の属性によって1つのグループにまとめられた及び/又はまとめてリンクされた多くのオブジェクト集合体を含み得、多くのオブジェクト集合体は、いくつかの共通の属性によって他のオブジェクト集合体に関連し得る。オブジェクト指向データベースは、オブジェクトが単なるデータ片ではなく、所定のオブジェクト内にカプセル化された他のタイプの機能性を有し得ることを除いて、リレーショナルデータベースと同様に実行する。いくつかの実施形態では、データベースは、データの表現及び格納を行うためのノード、エッジ及びプロパティを有する意味に基づくクエリのためのグラフ構造を使用するグラフデータベースを含み得る。本発明のデータベースがデータ構造として実装される場合は、本発明のデータベースの使用は、本発明のコンポーネントなどの別のコンポーネントに組み込むことができる。また、データベースは、データ構造、オブジェクト及び関係構造を混合したものとして実装することもできる。データベースは、標準的なデータ処理技法を通じて様々なバリエーションで整理統合すること及び/又は分布させることができる。データベースの一部分(例えば、テーブル)は、エクスポート及び/又はインポートすることができ、従って、分権化すること及び/又は統合することができる。
[0109] いくつかの実施形態では、保険システム1020は、高速且つ効果的なデータ回収、クエリ及び配信のためのデータベースを構築することができる。例えば、予測モデル作成及び管理システム1021又は保険金請求処理システム1023は、データの抽出、変換及びロード(ETL)を行うために、カスタム化されたアルゴリズムを提供することができる。
[0110] いくつかの事例では、データベース1033は、予測モデルに関連するデータを格納することができる。例えば、データベースは、訓練済み予測モデルについてのデータ(例えば、パラメータ、ハイパーパラメータ、モデルアーキテクチャ、性能メトリクス、閾値、ルールなど)、予測モデルによって生成されたデータ(例えば、中間結果、モデルの出力、潜在特徴、モデルシステムのコンポーネントの入力と出力など)、訓練データセット(例えば、ラベル付きデータ、ユーザフィードバックデータなど)、予測モデル、アルゴリズム及び同様のものを格納することができる。データベースは、本明細書で開示される1つ又は複数の方法によって利用されるアルゴリズム又はルールセットを格納することができる。例えば、アグリゲータによって機械学習訓練済みモデルと組み合わせて使用される既定のルールセットをデータベースに格納することができる。ある実施形態では、データベースのうちの1つ又は複数は、サーバと同一場所に位置することも、ネットワーク上で互いに同一場所に位置することも、他のデバイスから離れて位置することも可能である。当業者であれば、開示される実施形態は、データベースの構成及び/又は配列に限定されないことが認識されよう。
[0111] いくつかの事例では、データベース1033に格納されたデータは、アプリケーションプログラミングインタフェース(API)を通じて、様々なアプリケーションによる利用又はアクセスが可能である。データベースへのアクセスは、APIレベルごとに、データレベル(例えば、データのタイプ)ごとに、アプリケーションレベルごとに又は他の認可ポリシに従って認可することができる。
[0112] 特定のコンピューティングデバイスが示され、ネットワークが説明されているが、本明細書で説明される実施形態の精神及び範囲から逸脱しない範囲で、他のコンピューティングデバイス及びネットワークを利用できることを正しく評価し、理解されたい。それに加えて、当業者であれば正しく評価されるように、ネットワークレイアウトの1つ又は複数のコンポーネントは、様々な方法で相互接続することができ、いくつかの実施形態では、互いに直接接続することも、同一場所に位置することも、離れて位置することも可能である。
[0113] 図11は、本発明のいくつかの実施形態による、予測モデル作成及び管理システム1100を概略的に示す。いくつかの事例では、予測モデル作成及び管理システム1100は、保険金請求処理システムの構成及び管理をリモート操作で行うためにクラウド又はオンプレミス環境で走らせるサービス又はアプリケーションを含み得る。この環境は、1つ若しくは複数のパブリッククラウド(例えば、Amazon Web Services(AWS)、Azureなど)で及び/又はハイブリッドクラウド構成(システムの1つ若しくは複数の部分をプライベートクラウドで走らせ、他の部分を1つ若しくは複数のパブリッククラウドで走らせるもの)で走らせることができる。
[0114] 本開示のいくつかの実施形態では、予測モデル作成及び管理システム1100は、クラウドデータレイク及びメタデータデータベースからのデータを使用して予測モデルの訓練、開発又はテストを行うように構成されたモデル訓練モジュール1101を含み得る。モデル訓練プロセスは、推論速度を向上させるために、モデルプルーニング及び圧縮などの動作をさらに含み得る。モデルプルーニングは、ネットワーク出力に影響を及ぼさない訓練済みニューラルネットワークのノードを削除することを含み得る。モデル圧縮は、32の代わりに16の浮動小数点を使用するなど、低精度のネットワーク重みを使用することを含み得る。これにより、有益には、モデル性能を確保しながら、リアルタイム推論(例えば、高い推論速度での)が可能になり得る。
[0115] いくつかの事例では、予測モデル作成及び管理システム1100は、異なるフェーズ(例えば、開発、展開、予測、妥当性確認など)でモデルのデータドリフト又は性能をモニタするモデルモニタシステムを含み得る。また、モデルモニタシステムは、開発、テスト又は生産環境で展開されているモデルのデータ完全性チェックを実行することもできる。
[0116] モデルモニタシステムは、データ/モデル完全性チェックを実行し、データドリフト及び正確度低下を検出するように構成することができる。プロセスは、訓練データ及び予測データにおいてデータドリフトを検出することから始めることができる。訓練及び予測の間、モデルモニタシステムは、訓練データ、テスト、妥当性確認及び予測データの分布の差、訓練データ、テスト、妥当性確認及び予測データの分布の経時的な変化、予測出力の変化を引き起こしている共変量、並びに、他の様々なものをモニタすることができる。
[0117] いくつかの事例では、モデルモニタシステムは、モデルに対して1つ又は複数の完全性テストを実行する完全性エンジンを含み得、その結果は、モデル管理コンソール上に表示することができる。例えば、完全性テスト結果は、失敗した予測の数、テストに失敗した行エントリのパーセンテージ、テストの実行時間及び各エントリの詳細を示し得る。そのような結果は、モデル管理コンソールを介してユーザ(例えば、開発者、マネージャなど)に表示することができる。
[0118] モデルモニタシステムによってモニタされるデータは、モデル訓練及び生産の間に関与するデータを含み得る。モデル訓練におけるデータは、例えば、訓練、テスト及び妥当性確認データ、予測又は上記のデータセットを特徴付ける統計(例えば、データセットの平均、分散及び高次モーメント)を含み得る。生産時間に関与するデータは、時間、入力データ、行われた予測及び行われた予測の信頼限界を含み得る。いくつかの実施形態では、グラウンドトゥルースデータをモニタすることもできる。グラウンドトゥルースデータは、モデルの正確度を評価するため及び/又はモデルの再訓練をトリガするためにモニタすることができる。いくつかの事例では、ユーザは、モデルが展開フェーズに入った後に、グラウンドトゥルースデータ(例えば、代理人フィードバック)を予測モデル作成及び管理システム1100に提供することができる。モデルモニタシステムは、グラウンドトゥルースデータの変化などのデータの変化をモニタすること、又は、新しい訓練データ若しくは予測データが利用可能になった際にそれをモニタすることができる。
[0119] 上記で説明されるように、多数の状態推論エンジンは、モデル性能が閾値を下回ることが検出され次第、モニタリング又は再訓練を個々に行うことができる。予測時間の間、予測は、データドリフトを追跡するため又は新しいグラウンドトゥルースデータからのフィードバックを組み込むために、モデルと関連付けることができる。
[0120] また、いくつかの事例では、予測モデル作成及び管理システム1100は、様々なコンポーネント(例えば、クラウドデータレイク、メタデータデータベース、保険金請求処理エンジン、モデル訓練モジュール)の間でデータフローを管理することと、精密且つ複雑な高速のクエリ(例えば、モデルクエリ、訓練データクエリ)、モデル展開、維持、モニタリング、モデル更新、モデルバージョニング、モデル共有及び他の様々なものを提供することとを行うように構成することもできる。
[0121] 本開示の方法(例えば、図1、図2、図4、図9又はそれらの組合せで説明される方法)は、本明細書で説明されるように、システム(例えば、図5~図8のいずれか1つで説明されるシステム)上で実施することができる。方法は、事象を記述するテキスト文字列に基づいて事象を分類することができる。方法は、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45又は少なくとも50の事象の状態を識別することができる。方法は、最大で1、最大で2、最大で3、最大で4、最大で5、最大で6、最大で7、最大で8、最大で9、最大で10、最大で11、最大で12、最大で13、最大で14、最大で15、最大で16、最大で17、最大で18、最大で19、最大で20、最大で25、最大で30、最大で35、最大で40、最大で45若しくは最大で50の又はそれ以上の事象の状態を識別することができる。事象は、識別された状態に基づいて分類することができる。例えば、事象は、最大で100、最大で500、最大で1000、最大で2000、最大で3000、最大で4000、最大で5000、最大で6000、最大で7000、最大で8000、最大で9000、最大で10,000、最大で11,000、最大で12,000、最大で13,000、最大で14,000若しくは最大で15,000の又はそれ以上の分類のうちの1つ又は複数として分類することができる。事象は、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、少なくとも6000、少なくとも7000、少なくとも8000、少なくとも9000、少なくとも10,000、少なくとも11,000、少なくとも12,000、少なくとも13,000、少なくとも14,000又は少なくとも15,000の分類のうちの1つ又は複数として分類することができる。いくつかの実施形態では、方法は、約1秒以上かからずに、約2秒以上かからずに、約3秒以上かからずに、約4秒以上かからずに、約5秒以上かからずに、約6秒以上かからずに、約7秒以上かからずに、約8秒以上かからずに、約9秒以上かからずに、約10秒以上かからずに、約15秒以上かからずに、約20秒以上かからずに、約25秒以上かからずに、約30秒以上かからずに、約35秒以上かからずに、約40秒以上かからずに、約45秒以上かからずに、約50秒以上かからずに、約55秒以上かからずに、約60秒以上かからずに、約70秒以上かからずに、約80秒以上かからずに、約90秒以上かからずに、約100秒以上かからずに、約110秒以上かからずに又は約120秒以上かからずに事象を分類することができる。
[0122] 図5は、1つ又は複数の状態の識別及び分類を行うための方法(例えば、図2に関して説明される方法200又は図4に関して説明される方法400)の訓練及び実施を行うための本開示のシステム500を示す。システムは、テキスト文字列の1つ又は複数の状態を識別することができる状態分類モジュール510を含み得る。状態分類システムは、非一時的なコンピュータ可読媒体515を含み得る。非一時的なコンピュータ可読媒体は、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ、ハードディスク、半導体メモリ、テープドライブ、ディスクドライブ又はそれらの任意の組合せを含み得る。非一時的なコンピュータ可読媒体は、テキスト文字列516、訓練データセット517、訓練済みモデル518、及び、分類データ又は状態データ519を含むデータを格納することができるデータ領域をさらに含み得る。いくつかの実施形態では、状態分類システムは、ユーザインタフェース511、変換プロセス512、訓練セットジェネレータプロセス513及び機械学習プロセス514を含み得る。ユーザインタフェース511は、ユーザが本開示の方法を実施するために本開示のシステムと対話できるようにすることができる。変換プロセス512は、テキスト文字列データをモデル化可能なデータ(例えば、テキスト文字列データのワードに対応する数値識別子を含むデータ)に変換するように構成することができる。テキスト文字列若しくは変換済みのデータ又はその両方は、テキスト文字列データ領域516に格納することができる。訓練セットジェネレータプロセス513は、1つ若しくは複数の分類又は1つ若しくは複数の状態と関連付けられたテキスト文字列データから訓練セットデータを生成するように構成することができる。訓練セットは、データ領域517に格納することができる。訓練済みモデルは、訓練データセットに基づいて準備し、データ領域518に格納することができる。機械学習プロセス514は、訓練済みモデルを実装して、テキスト文字列の1つ若しくは複数の状態又は1つ若しくは複数の分類を識別し、データ領域519に格納することができる。
[0123] 状態分類システム510は、通信ネットワーク520を通じて、入力ユーザ530若しくは出力ユーザ540又はその両方に動作可能に接続することができる。入力ユーザは、入力データインタフェース531を通じて、通信ネットワークと対話することができる。出力ユーザは、分類インタフェース541を通じて、通信ネットワークと対話することができる。通信ネットワークは、入力ユーザから事象記述情報535を受信し、事象記述情報を状態分類システム510に提供するように構成することができる。事象記述情報は、テキスト文字列データ領域516にテキスト文字列として格納することができる。通信ネットワークは、状態分類システムから状態又は分類情報を受信するように構成することができる。状態又は分類情報は、状態データ領域519に格納することができる。状態又は分類情報は、分類インタフェースを通じて、出力ユーザに提供することができる。いくつかの実施形態では、入力ユーザと出力ユーザは、同じであり得る。
[0124] 図6は、ニューラルネットワークを使用して1つ又は複数の状態の識別及び分類を行うための方法(例えば、図4に関して説明される方法400)の訓練及び実施を行うための本開示のシステム600を示す。変換エンジン630は、ネットワーク610若しくはデータストア620又はその両方からテキスト文字列データを受信することができる。いくつかの実施形態では、変換エンジンは、テキスト文字列データをモデル化可能なデータに変換することができる。例えば、モデル化可能なデータは、テキスト文字列データに存在するワードに対応する数値識別子を含み得る。変換済みのデータは、データストアに格納することも、ネットワーク上でユーザに提供することもできる。ワード構成エンジン640は、変換エンジンによって準備されたモデル化可能なデータセットに存在する1つ又は複数のワードを識別することができる。状態識別エンジン650は、ワード構成エンジンによって識別されたワードに基づいて、データセットの1つ又は複数の状態を識別することができる。状態識別エンジンは、2つ以上の状態の関係を識別するために、関連状態識別エンジン651を含み得る。状態識別エンジンは、状態がデータセットと関連付けられる可能性若しくは第1の状態が第2の状態に関連する可能性又はその両方を決定することができる状態可能性エンジン652を含み得る。訓練エンジン660は、訓練データセットを使用してニューラルネットワークを訓練することができる。訓練エンジンは、訓練データに基づいて関連状態識別及び状態可能性を調整するために、関連状態識別及び状態可能性エンジンと対話することができる。分類エンジン670は、訓練済み状態識別エンジンを使用して、変換済みのテキスト文字列の1つ又は複数の状態又は分類を識別することができる。分類は、データストアに格納することも、ネットワーク上でユーザに伝達することもできる。
[0125] 図7は、1つ又は複数の状態の識別及び分類を行うためのシステムの動作方法700を示す。ステップ711から始まり、システムによって、事象の記述を含むテキストデータを受信することができる。ステップ712では、システムは、ステップ711で受信された事象記述テキストに対応する状態データ及び分類データを受信することができる。ステップ713では、事象記述データをモデル化可能なデータに変換することができ、ステップ714では、そのデータを使用して訓練セットを生成することができる。ステップ715では、訓練セットに基づいてモデルを生成することができる。モデルを反復して訓練するため、ステップ711において訓練済みモデルをシステムに提供することができる。訓練済みモデルは、ステップ721から始まる方法を実施するために使用することができる。ステップ721では、ユーザは、事象記述を提供することができる。事象記述は、機密扱いされていないものであり得る。ステップ731では、システムによって、事象記述を受信することができる。ステップ732では、事象テキストデータをモデル化可能なデータに変換することができる。ステップ733では、変換済みのテキストデータにおいてワードを識別することができる。ステップ734では、ステップ715で生成されたモデルを使用して、テキストデータと関連付けられた1つ又は複数の状態を識別することができる。ステップ735では、ステップ734で識別された状態と関連付けられた関連状態を識別することができる。ステップ736では、ステップ734及び735で識別された状態に基づいてテキストデータを分類することができる。ステップ722では、状態データ及び分類データをユーザに報告することができる。
[0126] 別段の定義がない限り、本明細書で使用されるすべての技術用語は、この発明が属する分野の当業者によって一般的に理解されるものと同じ意味を有する。この明細書及び添付の特許請求の範囲で使用される場合、「a」、「an」及び「the」などの単数形は、文脈上明らかにそうでないことを示さない限り、複数形の言及を含む。本明細書における「又は」への言及は、別段の明記がない限り、「及び/又は」を包含することを意図する。
[0127] 「少なくとも~」、「~より大きい」或いは「~より大きいか又は等しい」という用語が2つ以上の一連の数値の第1の数値に先行する際は常に、「少なくとも~」、「~より大きい」或いは「~より大きいか又は等しい」という用語は、その一連の数値の各数値に当てはまる。例えば、1、2又は3より大きいか又は等しいは、1より大きいか又は等しい、2より大きいか又は等しい或いは3より大きいか又は等しいと同等である。
[0128] 「~以上はない」、「~未満」、「~より少ないか又は等しい」或いは「最大で~」という用語が2つ以上の一連の数値の第1の数値に先行する際は常に、「~以上はない」、「~未満」、「~より少ないか又は等しい」或いは「最大で~」という用語は、その一連の数値の各数値に当てはまる。例えば、3、2又は1より少ないか又は等しいは、3より少ないか又は等しい、2より少ないか又は等しい或いは1より少ないか又は等しいと同等である。
[0129] 値が範囲として説明されている場合は、そのような開示は、特定の数値又は特定の下位範囲が明記されているかどうかにかかわらず、そのような範囲内のすべての考えられる下位範囲の開示のみならず、そのような範囲内に収まる特定の数値も含むことが理解されよう。
[0130] 本明細書では、本発明の好ましい実施形態を示し、説明してきたが、当業者にとって、そのような実施形態が単なる例として提供されることは明らかであろう。本発明は、仕様内で提供される特定の例によって制限されることは意図されない。本発明は、前述の仕様を参照して説明してきたが、本明細書の実施形態の説明及び例示は、制限の意味で解釈することを目的としない。今や、本発明を逸脱しない範囲で、多くの変形、変更及び代用が当業者に思い当たるであろう。その上、本発明のすべての態様は、本明細書に記載される特定の描写、構成又は相対的比率に限定されず、様々な条件及び変数に依存することが理解されるものとする。本発明の実践では、本明細書で説明される発明の実施形態の様々な代替の形態を採用できることを理解すべきである。従って、本発明は、そのような任意の代替の形態、変更形態、変形形態又は均等形態もカバーすることが企図される。以下の特許請求の範囲が本発明の範囲を定義することや、それにより、これらの特許請求の範囲及びそれらの均等物の範囲内の方法及び構造がカバーされることが意図される。
Claims (69)
- 事象を分類するためのコンピュータ実装方法であって、
(a) 入力データからテキストデータを抽出することであって、前記テキストデータが、前記事象を記述する、抽出することと、
(b) 多数の機械学習アルゴリズム訓練済みモデルによって処理するために、前記テキストデータを変換済みの入力特徴に変換することと、
(c) 前記事象の多数の状態を出力するために、前記多数の機械学習アルゴリズム訓練済みモデルを使用して前記変換済みの入力特徴を処理することと、
(d) 前記事象のステータスを示す出力を生成するために、前記多数の状態を集約することと
を含む、コンピュータ実装方法。 - 前記入力データが、非構造化テキストデータ又は文字起こしされたデータを含む、請求項1に記載のコンピュータ実装方法。
- 前記テキストデータを抽出することが、前記入力データからワードの組合せを識別することを含む、請求項1に記載のコンピュータ実装方法。
- 前記テキストデータを抽出することが、前記入力データからアンカーワードを識別することを含む、請求項1に記載のコンピュータ実装方法。
- 前記アンカーワードの場所に少なくとも部分的に基づいて、前記アンカーワードの場所に対する境界を決定することをさらに含む、請求項4に記載のコンピュータ実装方法。
- 前記境界内の前記テキストデータのサブセットを認識することをさらに含む、請求項5に記載のコンピュータ実装方法。
- 前記テキストデータの前記サブセットの座標に基づいて、前記テキストデータの前記サブセットの少なくとも一部分をグループ分けすることをさらに含む、請求項6に記載のコンピュータ実装方法。
- 前記アンカーワードが、前記入力データのフォーマットに基づいて事前に決定される、請求項4に記載のコンピュータ実装方法。
- 前記アンカーワードが、機械学習アルゴリズム訓練済みモデルを使用してラインアイテムワードの存在を予測することによって識別される、請求項4に記載のコンピュータ実装方法。
- 前記テキストデータを抽出することが、(i)前記多数の機械学習アルゴリズム訓練済みモデルのデータ分布範囲外のワードを識別することと、(ii)前記多数の機械学習アルゴリズム訓練済みモデルの前記データ分布範囲内の置換ワードに前記ワードを置き換えることとを含む、請求項1に記載のコンピュータ実装方法。
- 前記変換済みの入力特徴が、数値を含む、請求項1に記載のコンピュータ実装方法。
- 前記多数の状態が、異なるタイプの状態である、請求項1に記載のコンピュータ実装方法。
- 前記多数の状態が、病状、医療処置、歯の治療、予防治療、食事療法、健康診断、薬物治療、治療部位、費用、割引、持病、疾患又は病気を含む、請求項1に記載のコンピュータ実装方法。
- 前記多数の状態が、訓練済みモデルを使用して集約される、請求項1に記載のコンピュータ実装方法。
- 前記出力が、前記ステータスの確率を含む、請求項14に記載のコンピュータ実装方法。
- 前記出力が、前記多数の状態を集約することから推論される洞察を含む、請求項1に記載のコンピュータ実装方法。
- 前記事象の前記ステータスが、承認、拒否又はさらなる妥当性確認動作の要求を含む、請求項1に記載のコンピュータ実装方法。
- 同じ状態に対応する2つの異なる機械学習アルゴリズム訓練済みモデルを提供することをさらに含む、請求項1に記載のコンピュータ実装方法。
- 前記事象の特徴に基づいて前記変換済みの入力特徴を処理するために、前記2つの異なる機械学習アルゴリズム訓練済みモデルからモデルを選択することをさらに含む、請求項18に記載のコンピュータ実装方法。
- 前記事象の前記特徴が、前記事象を分類するための待ち時間を含む、請求項19に記載のコンピュータ実装方法。
- 命令を含む非一時的なコンピュータ可読媒体であって、前記命令が、プロセッサによって実行されると、事象を分類するための方法を前記プロセッサに実行させる、非一時的なコンピュータ可読媒体であり、前記方法が、
(a) 入力データからテキストデータを抽出することであって、前記テキストデータが、前記事象を記述する、抽出することと、
(b) 多数の機械学習アルゴリズム訓練済みモデルによって処理するために、前記テキストデータを変換済みの入力特徴に変換することと、
(c) 前記事象の多数の状態を出力するために、前記多数の機械学習アルゴリズム訓練済みモデルを使用して前記変換済みの入力特徴を処理することと、
(d) 前記事象のステータスを示す出力を生成するために、前記多数の状態を集約することと
を含む、非一時的なコンピュータ可読媒体。 - 前記入力データが、非構造化テキストデータを含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記テキストデータを抽出することが、前記入力データからワードの組合せを識別することを含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記テキストデータを抽出することが、前記入力データからアンカーワードを識別することを含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記方法が、前記アンカーワードの場所に少なくとも部分的に基づいて、前記アンカーワードの場所に対する境界を決定することをさらに含む、請求項24に記載の非一時的なコンピュータ可読媒体。
- 前記方法が、前記境界内の前記テキストデータのサブセットを認識することをさらに含む、請求項25に記載の非一時的なコンピュータ可読媒体。
- 前記方法が、前記テキストデータの前記サブセットの座標に基づいて、前記テキストデータの前記サブセットの少なくとも一部分をグループ分けすることをさらに含む、請求項26に記載の非一時的なコンピュータ可読媒体。
- 前記アンカーワードが、前記入力データのフォーマットに基づいて事前に決定される、請求項24に記載の非一時的なコンピュータ可読媒体。
- 前記アンカーワードが、機械学習アルゴリズム訓練済みモデルを使用してラインアイテムワードの存在を予測することによって識別される、請求項24に記載の非一時的なコンピュータ可読媒体。
- 前記テキストデータを抽出することが、(i)前記多数の機械学習アルゴリズム訓練済みモデルのデータ分布範囲外のワードを識別することと、(ii)前記多数の機械学習アルゴリズム訓練済みモデルの前記データ分布範囲内の置換ワードに前記ワードを置き換えることとを含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記変換済みの入力特徴が、数値を含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記多数の状態が、異なるタイプの状態である、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記多数の状態が、病状、医療処置、歯の治療、予防治療、食事療法、健康診断、薬物治療、治療部位、費用、割引、持病、疾患又は病気を含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記多数の状態が、訓練済みモデルを使用して集約される、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記出力が、前記ステータスの確率を含む、請求項34に記載の非一時的なコンピュータ可読媒体。
- 前記出力が、前記多数の状態を集約することから推論される洞察を含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記事象の前記ステータスが、承認、拒否又はさらなる妥当性確認動作の要求を含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記方法が、同じ状態に対応する2つの異なる機械学習アルゴリズム訓練済みモデルを提供することをさらに含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 前記方法が、前記事象の特徴に基づいて前記変換済みの入力特徴を処理するために、前記2つの異なる機械学習アルゴリズム訓練済みモデルからモデルを選択することをさらに含む、請求項38に記載の非一時的なコンピュータ可読媒体。
- 前記入力データが、文字起こしされたデータを含む、請求項21に記載の非一時的なコンピュータ可読媒体。
- 事象を分類するためのコンピュータ実装方法であって、
a. 前記事象を記述する変換済みのテキスト文字列を受信することと、
b. 前記変換済みのテキスト文字列に存在するワードを識別することと、
c. 前記変換済みのテキスト文字列に存在するワードの組合せを識別することと、
d. (i)前記ワード、(ii)前記ワードの組合せ又は(iii)それらの組合せに基づいて前記事象を分類することと
を含む、コンピュータ実装方法。 - 前記分類することが、前記事象の状態を識別することを含む、請求項41に記載のコンピュータ実装方法。
- 前記状態が、少なくとも100、少なくとも500、少なくとも1000、少なくとも2000、少なくとも3000、少なくとも4000、少なくとも5000、10,000の考えられる状態で又は少なくとも10,000の考えられる状態から選択される、請求項42に記載のコンピュータ実装方法。
- 前記分類することが、2つ以上の状態を識別することを含む、請求項41に記載のコンピュータ実装方法。
- 前記2つ以上の状態が、2つ以上のプロセスから決定される、請求項44に記載のコンピュータ実装方法。
- 前記2つ以上のプロセスが、並行して走る、請求項45に記載のコンピュータ実装方法。
- 前記ワードを識別することが、過去のテキスト文字列で識別されたワードのデータベースから前記ワードを識別することを含む、請求項41に記載のコンピュータ実装方法。
- ワードの前記データベースが、少なくとも100、少なくとも500、少なくとも1000、少なくとも5000、少なくとも10,000、少なくとも20,000又は少なくとも30,000の既知のワードを含む、請求項47に記載のコンピュータ実装方法。
- 前記ワードを識別することが、数値識別子を前記ワードに割り当てることを含む、請求項41に記載のコンピュータ実装方法。
- 前記数値識別子が、過去のテキスト文字列で識別されたワードに対応する、請求項49に記載のコンピュータ実装方法。
- 前記数値識別子が、過去のテキスト文字列で識別されたワードに対応しない、請求項49に記載のコンピュータ実装方法。
- 前記ワードの組合せを識別することが、有意なワードの組合せを識別することを含む、請求項41に記載のコンピュータ実装方法。
- 前記有意なワードの組合せが、有意なワードの組合せのデータベースから識別される、請求項52に記載のコンピュータ実装方法。
- 有意なワードの組合せの前記データベースが、状態を示すものとして過去のテキスト文字列から識別されたワードの組合せを含む、請求項53に記載のコンピュータ実装方法。
- 有意なワードの組合せの前記データベースが、少なくとも100、少なくとも500、少なくとも1000、少なくとも5000又は少なくとも10,000の有意なワードの組合せを含む、請求項53に記載のコンピュータ実装方法。
- 前記状態が、病状である、請求項52に記載のコンピュータ実装方法。
- 前記状態が、医療処置である、請求項52に記載のコンピュータ実装方法。
- 前記状態が、歯の治療、予防治療、食事療法、健康診断、薬物治療、治療部位、費用、割引、持病、疾患又は病気である、請求項52に記載のコンピュータ実装方法。
- 前記分類することが、多数の状態を識別することを含む、請求項51に記載のコンピュータ実装方法。
- 前記多数の状態の状態が、独立して識別される、請求項59に記載のコンピュータ実装方法。
- 前記分類することが、結果を決定するために、前記多数の状態を集約することをさらに含む、請求項59に記載のコンピュータ実装方法。
- 少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16又は少なくとも17の状態が識別される、請求項59に記載のコンピュータ実装方法。
- 前記状態が、標準化状態である、請求項52に記載のコンピュータ実装方法。
- 前記変換済みのテキストデータが、非標準化テキストデータから変換されているデータを含む、請求項41に記載のコンピュータ実装方法。
- 前記分類することが、起こり得る状態を決定するために訓練済み機械学習モデルを適用することを含む、請求項41に記載のコンピュータ実装方法。
- 前記訓練済み機械学習モデルが、ニューラルネットワークを含む、請求項65に記載のコンピュータ実装方法。
- 前記ワードを識別することが、入力ニューロンを活性化することを含む、請求項66に記載のコンピュータ実装方法。
- 前記訓練済み機械学習モデルが、過去のテキスト文字列を含む訓練セットを使用して訓練される、請求項65に記載のコンピュータ実装方法。
- 命令を含む非一時的なコンピュータ可読媒体であって、前記命令が、プロセッサによって実行されると、請求項41~68のいずれか一項に記載の方法を前記プロセッサに実行させる、非一時的なコンピュータ可読媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063024299P | 2020-05-13 | 2020-05-13 | |
US63/024,299 | 2020-05-13 | ||
PCT/US2021/031680 WO2021231353A1 (en) | 2020-05-13 | 2021-05-11 | Systems and methods for state identification and classification of text data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023527686A true JP2023527686A (ja) | 2023-06-30 |
Family
ID=78512514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022567754A Pending JP2023527686A (ja) | 2020-05-13 | 2021-05-11 | テキストデータの状態識別及び分類のためのシステム及び方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20210357702A1 (ja) |
EP (1) | EP4150475A4 (ja) |
JP (1) | JP2023527686A (ja) |
AU (1) | AU2021270752A1 (ja) |
BR (1) | BR112022023204A2 (ja) |
CA (1) | CA3178095A1 (ja) |
GB (1) | GB2610989A (ja) |
WO (1) | WO2021231353A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171835B (zh) * | 2022-09-02 | 2022-12-23 | 北京智源人工智能研究院 | 病例结构化模型训练方法、装置和病例结构化方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6343271B1 (en) * | 1998-07-17 | 2002-01-29 | P5 E.Health Services, Inc. | Electronic creation, submission, adjudication, and payment of health insurance claims |
US7644053B2 (en) * | 2004-03-03 | 2010-01-05 | The Boeing Company | System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support |
US20090049018A1 (en) * | 2007-08-14 | 2009-02-19 | John Nicholas Gross | Temporal Document Sorter and Method Using Semantic Decoding and Prediction |
US8108406B2 (en) * | 2008-12-30 | 2012-01-31 | Expanse Networks, Inc. | Pangenetic web user behavior prediction system |
US10181106B2 (en) * | 2012-05-29 | 2019-01-15 | Ophio Software, Inc. | Methods for processing information associated with sales force management, customer relationship management and professional services management systems |
US20150309985A1 (en) * | 2014-04-28 | 2015-10-29 | Elwha Llc | Methods, systems, and devices for machines and machine states that facilitate modification of documents based on various corpora |
US20180204135A1 (en) * | 2017-01-18 | 2018-07-19 | Wipro Limited | Systems and methods for improving accuracy of classification-based text data processing |
-
2021
- 2021-05-11 EP EP21805103.5A patent/EP4150475A4/en active Pending
- 2021-05-11 WO PCT/US2021/031680 patent/WO2021231353A1/en unknown
- 2021-05-11 US US17/317,008 patent/US20210357702A1/en active Pending
- 2021-05-11 JP JP2022567754A patent/JP2023527686A/ja active Pending
- 2021-05-11 BR BR112022023204A patent/BR112022023204A2/pt unknown
- 2021-05-11 AU AU2021270752A patent/AU2021270752A1/en active Pending
- 2021-05-11 CA CA3178095A patent/CA3178095A1/en active Pending
- 2021-05-11 GB GB2218715.7A patent/GB2610989A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
AU2021270752A1 (en) | 2022-12-08 |
WO2021231353A1 (en) | 2021-11-18 |
EP4150475A4 (en) | 2024-05-22 |
CA3178095A1 (en) | 2021-11-18 |
BR112022023204A2 (pt) | 2023-02-07 |
US20210357702A1 (en) | 2021-11-18 |
GB202218715D0 (en) | 2023-01-25 |
EP4150475A1 (en) | 2023-03-22 |
GB2610989A (en) | 2023-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11232365B2 (en) | Digital assistant platform | |
US10235633B2 (en) | Method and system for linking heterogeneous data sources | |
Raja et al. | A systematic review of healthcare big data | |
CA3046247C (en) | Data platform for automated data extraction, transformation, and/or loading | |
US20130054259A1 (en) | Rule-based Prediction of Medical Claims' Payments | |
US20200311610A1 (en) | Rule-based feature engineering, model creation and hosting | |
US11748384B2 (en) | Determining an association rule | |
US11847411B2 (en) | Obtaining supported decision trees from text for medical health applications | |
US20230368070A1 (en) | Systems and methods for adaptative training of machine learning models | |
US20230010686A1 (en) | Generating synthetic patient health data | |
US11842286B2 (en) | Machine learning platform for structuring data in organizations | |
WO2022068160A1 (zh) | 基于人工智能的重症问诊数据识别方法、装置、设备及介质 | |
US11532387B2 (en) | Identifying information in plain text narratives EMRs | |
Agarwal et al. | Preparing for the next pandemic via transfer learning from existing diseases with hierarchical multi-modal BERT: A study on COVID-19 outcome prediction | |
Wang et al. | Medical text classification based on the discriminative pre-training model and prompt-tuning | |
JP2023527686A (ja) | テキストデータの状態識別及び分類のためのシステム及び方法 | |
US11823775B2 (en) | Hashing electronic records | |
Theodorou et al. | Synthesize extremely high-dimensional longitudinal electronic health records via hierarchical autoregressive language model | |
CN116940937A (zh) | 生成多模态话语树的技术 | |
US20240160953A1 (en) | Multimodal table extraction and semantic search in a machine learning platform for structuring data in organizations | |
US20230043849A1 (en) | Answer generation using machine reading comprehension and supported decision trees | |
US20240006060A1 (en) | Machine learning based systems and methods for classifying electronic data and generating messages | |
US20240168611A1 (en) | Interface for display of interactive content | |
US20240168919A1 (en) | Real time analysis of interactive content | |
Zafari et al. | Using Deep Learning with Canadian Primary Care Data for Disease Diagnosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240426 |