JP2021532499A - 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体 - Google Patents

機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体 Download PDF

Info

Publication number
JP2021532499A
JP2021532499A JP2021506440A JP2021506440A JP2021532499A JP 2021532499 A JP2021532499 A JP 2021532499A JP 2021506440 A JP2021506440 A JP 2021506440A JP 2021506440 A JP2021506440 A JP 2021506440A JP 2021532499 A JP2021532499 A JP 2021532499A
Authority
JP
Japan
Prior art keywords
text
medical
data
vectors
record information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021506440A
Other languages
English (en)
Other versions
JP7162726B2 (ja
Inventor
チェン,シャンシャン
ルアン,シャオウェン
スー,リャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2021532499A publication Critical patent/JP2021532499A/ja
Application granted granted Critical
Publication of JP7162726B2 publication Critical patent/JP7162726B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

【課題】機械学習に基づく医療データ分類方法を提供する。【解決手段】機械学習に基づく医療データ分類方法は、端末が送信した医療データ分類要求を受信するステップと、予め設定された医療用語集を取得し、診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、ターゲット分類器を取得し、ターゲット分類器の複数のニューラルネットワークノードによって複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップと、複数のテキストベクトルに対応するターゲットノードまで走査すると、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、診療録情報に対応するカテゴリ結果を得るステップと、診療録情報に対応するカテゴリ結果を端末にプッシュ通知するステップとを含む。【選択図】図2

Description

(関連出願の相互参照)
本願は、2019年3月7日に中国国家知識産権局に提出された「機械学習に基づく医療データ分類方法、装置及びコンピュータデバイス」と題する中国特許出願第2019101715930号の優先権を主張し、その全体が引用により本願に組み込まれる。
本発明は、コンピュータ技術分野に関し、特に、機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体に関する。
近年、がんの罹患率が増加の一途をたどり、がんは重要な健康課題として見なされるようになる。がんの早期診断と治療はがん患者の生存率を明らかに高めることができる。コンピュータ技術及び医療技術の急速な発展に伴い、大量の医療データに対するスマート分類方法が出現し、例えば、診療録や医療書籍から特定の診療録を取り出して構造化された単語リストを抽出し、診療録別テーマモデルを構築し、診療録のテーマによってトレーニングして対応するカテゴリを得る。あるいは、経験や関連の知識を利用して入力サンプルをトレーニングし、がんのタイプを分類する。これは医療従事者の作業負荷の軽減にもつながる。
従来の医療データ分類方法では、分類分析の対象データは昔から使われるデータがほとんどで、データの由来が限られるため、実際のユーザーの診療録情報に対して分類分析を行うことができず、しかも診療録情報の多くが複雑でかつ具体的な経過分析及び記録書面で、医療書面の性質上、診療録情報で用語が正確でなければ意味が伝わらない。
コンピュータデバイスが実行する機械学習に基づく医療データ分類方法であって、端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとを含む。
一態様では、前記診療録情報には複数のテキストデータが含まれ、前記診療録情報に単語分割処理を行う前記ステップは、予め設定された医療用語集を取得するステップであって、前記医療用語集には複数の医療用語が含まれるステップと、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出するステップと、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得るステップと、前記単語分割後の複数のテキストデータにベクトル変換を行って、複数のテキストベクトルを得るステップとを含む。
一態様では、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る前記ステップは、前記複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算するステップと、前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算するステップと、前記重みが予め設定された閾値に達するテキストベクトルを抽出するステップと、予め設定されたアルゴリズム及び前記重みに基づいて前記テキストベクトルに対応する特徴次元値を計算するステップとを含む。
一態様では、前記ターゲット分類器を構築するステップは、複数の医療データを取得し、前記複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成するステップと、前記トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得るステップと、前記クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出するステップと、予め設定されたニューラルネットワークモデルを取得し、前記ニューラルネットワークモデルによって前記トレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築するステップと、前記検証セットデータを利用して前記分類器の更なるトレーニング及び検証を行い、前記検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るステップとを含む。
一態様では、テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して複数のテキストベクトルに対応するカテゴリを計算するステップは、前記ターゲット分類器を利用して前記特徴次元値から前記複数のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算するステップと、前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するステップとを含む。
一態様では、前記方法は、予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得するステップと、複数の過去医療データにクラスター分析を行って、分析結果を得るステップと、前記分析結果に基づいて特徴選択を行って、複数の特徴変数を得るステップと、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算するステップと、複数の特徴変数及び対応する重みに基づいて前記ターゲット分類器の最適化を行って調整するステップとをさらに含む。
機械学習に基づく医療データ分類装置であって、端末が送信した医療データ分類要求を受信するために用いられ、前記医療データ分類要求は診療録情報を含む要求受信モジュールと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るための単語分割処理モジュールと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るための特徴抽出モジュールと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するために用いられ、前記ターゲット分類器は複数の医療データでトレーニングして得られるデータ分類モジュールであって、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るためのデータ分類モジュールと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するためのデータプッシュ通知モジュールとを含む。
一態様例では、前記単語分割処理モジュールは、予め設定された複数の医療用語を含む医療用語集を取得し、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出し、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得、前記単語分割後後の複数のテキストデータをベクトル化して、複数のテキストベクトルを得るためにも用いられる。
コンピュータデバイスであって、メモリと、プロセッサとを含み、前記メモリには少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドが前記プロセッサによってロードされると、端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとが実行される。
不揮発性コンピュータ可読記憶媒体であって、前記記憶媒体には少なくとも1つのコマンドが記憶されており、前記コンピュータ可読記憶媒体には少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドがプロセッサによってロードされると、端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとが実行される。
次の図面及び説明で本発明の1つ以上の実施例が詳細に記載される。本発明の他の特徴及び利点は明細書、図面、特許請求の範囲の記載から明らかになる。
次に、実施例の説明に使用する図面を簡単に紹介する。言うまでもないが、次に言及される図面は本発明のいくつかの実施例が対象になり、当業者であれば、新規性のある作業をしなくても、これらの図面から他の図面を得ることができる。
一実施例に係る機械学習に基づく医療データ分類方法の適用シーンの図である。 一実施例に係る機械学習に基づく医療データ分類方法のフローチャートである。 一実施例で診療録情報に単語分割処理を行うステップのフローチャートである。 一実施例でターゲット分類器を構築するステップのフローチャートである。 一実施例に係る機械学習に基づく医療データ分類装置の構造のブロック図である。 一実施例に係るコンピュータデバイスの内部構造図である。
次に、本発明の技術的解決手段及び利点が明らかになるよう、実施例及び図面を参照して、本発明の一層詳細な説明を行う。なお、ここに記載される実施例は、本発明の限定にならず、本発明を説明するためのものに過ぎない。
本発明に係る機械学習に基づく医療データ分類方法は、図1の適用シーンに適用される。端末102はネットワークによってサーバー104と通信を行う。医療従事者は対応する端末102を利用してサーバー104に医療データ分類要求を送信することができ、医療データ分類要求には診療録情報が含まれる。サーバー104は端末102が送信した医療データ分類要求を受信した後、診療録情報に単語分割処理を行って、複数のテキストベクトルを得、さらに複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。さらにサーバー104はターゲット分類器を取得し、ターゲット分類器は複数の医療データでトレーニングして得られ、ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値に分類分析を行って、効率的に診療録情報に対応するカテゴリ結果を得ることができ、さらにサーバー104は診療録情報に対応するカテゴリ結果を対応する端末102にプッシュ通知する。診療録情報に効率的な単語分割及び特徴抽出を行い、予めトレーニングして構築された分類器を利用して抽出されたテキストデータを分類することにより、診療録情報の分類の正確率が効果的に高められる。非限定的であるが、端末102は様々なタイプのパソコン、ノートパソコン、スマートフォン、タブレットパソコン、ポータブルウェアラブルデバイスであってもよく、サーバー104は単独のサーバー又は複数のサーバーからなるサーバークラスターとして実装することができる。
一実施例では、図2に示すとおり、機械学習に基づく医療データ分類方法を提供し、当該方法が図1のサーバーに適用されるのを例に説明する。以下のステップ202〜ステップ212を含む。
ステップ202で、端末が送信した医療データ分類要求を受信し、医療データ分類要求は診療録情報を含む。
診療録情報は受診者のID情報、個人資産情報、既往歴記録情報、過去の診断情報等を含んでもよい。医療従事者が受診者を診断する時には、対応する端末を利用して受診者の診療録情報を取得してもよく、診療録情報は医療従事者が入力した情報を含んでもよいし、受診者のID情報によってデータベースから取得された診療録情報を含んでもよい。端末が当該受診者の診療録情報を取得した後、診療録情報に基づいてサーバーに医療データ分類要求を送信し、医療データ分類要求には診療録情報及びID情報が含まれる。
さらに、サーバーは受診者のID情報によって第三者データベースから当該受診者の過去の診療録情報(例えば、当該受診者の他の医療機関での診療録情報)を取得することにより、当該受診者に対応する完全な診療録情報を効率的に取得することができる。
ステップ204で、予め設定された医療用語集を取得し、医療用語集中の医療用語に基づいて診療録情報に単語分割処理を行って、複数のテキストベクトルを得る。
診療録情報に単語分割処理を行う前に、サーバーは大量の医療データを取得し、前記大量の医療データに意味分析を行ってもよく、例えば、予め設定された意味分析モデルによって大量の医療データに意味分析を行って、複数のカテゴリの医療用語を得る。さらに、サーバーは分析して得た医療用語を利用して医療分野の複数のカテゴリに対応する医療用語集を生成する。
サーバーは端末が送信した医療データ分類要求を受信した後、診療録情報に単語分割処理を行う。具体的には、サーバーは予め設定された医療用語集を取得し、医療用語集には大量の医療用語及び対応するベクトルが含まれる。次にサーバーは診療録情報中の複数のテキストデータと医療用語集中の複数の医療用語とのマッチングを行い、具体的には、サーバーは予め設定された距離アルゴリズムによって診療録情報中のテキストデータと医療用語との類似度を計算し、診療録情報中のテキストデータと医療用語とのマッチング度を算出してもよい。さらにサーバーは予め設定されたマッチング度に達するテキストデータを抽出する。次にサーバーはマッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得る。さらにサーバーは単語分割後の複数のテキストデータをベクトル化し、テキストデータを対応する定量情報に変換することによって、複数のテキストデータに対応する複数のテキストベクトルを得る。
ステップ206で、複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。
サーバーは診療録情報に対応するテキストベクトルに単語分割を行って、複数のテキストベクトルを得た後、テキストデータに特徴抽出を行う。サーバーは予め設定されたアルゴリズムに従って単語分割後の複数のテキストベクトルの重みを計算する。例えば、サーバーはTF−IDFアルゴリズムによって複数のテキストベクトルのTF値及びIDF値を計算することができ、TF(Term Frequency、単語出現頻度)は文書中のテキストベクトルの出現頻度を示す。IDF(Inverse Document Frequency、逆文書頻度)は単語の一般的な重要度を示す尺度である。複数の単語のTF値及びIDF値に基づいて複数の対応する重みを計算し、例えば、TF値とIDF値の積を計算してテキストベクトルに対応する重みを得ることができ、さらにサーバーはテキストベクトルの重みに基づいてテキストベクトルに特徴抽出を行って、予め設定された閾値に達するテキストベクトルを抽出する。
予め設定された閾値に達するテキストベクトルを抽出した後、サーバーは予め設定されたアルゴリズム及びテキストベクトルの重みに基づいて複数のテキストベクトルの特徴次元値を算出し、特徴次元値はテキストベクトルの属する特徴次元を表す。テキストベクトルの重みを算出し、重みによってテキストベクトルをフィルタリングすることにより、効率的にテキストベクトルに特徴抽出を行って、テキストベクトルに対応する特徴次元値を得ることができる。
ステップ208で、ターゲット分類器を取得し、ターゲット分類器の複数のニューラルネットワークノードによって複数のテキストベクトル及び対応する特徴次元値を走査して計算し、ターゲット分類器は複数の医療データでトレーニングして得られる。
ステップ210で、複数のテキストベクトルに対応するターゲットノードまで走査すると、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率に基づいて診療録情報に対応するカテゴリ結果を得る。
ターゲット分類器を取得する前に、サーバーは予めターゲット分類器を構築しこれをトレーニングしてもよい。具体的には、サーバーは予めローカルデータベース又は第三者データベースから大量の医療データを取得し、複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成してもよい。サーバーは医療データに対応する複数のフィールドのデータをベクトル化して、複数のテキストデータに対応する特徴ベクトルを得、特徴ベクトルを対応する特徴変数に変換する。さらにサーバーは予め設定されたクラスタリングアルゴリズムを用いてトレーニングセットデータに対応する特徴変数にクラスター分析を行って、予め設定された閾値に達する特徴変数を抽出する。次にサーバーは予め設定されたニューラルネットワークモデルを取得し、ニューラルネットワークモデルによってトレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築する。検証セットデータを利用して分類器の更なるトレーニング及び検証を行い、検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得る。
テキストデータに特徴抽出を行って、複数のテキストデータに対応する多次元ベクトルを得た後、サーバーはトレーニング済みのターゲット分類器を取得し、複数のテキストベクトル及び対応する次元特徴値をターゲット分類器に入力し、ここで、ターゲット分類器には複数の予め設定されたニューラルネットワーク層ノード及び対応するノード重みが含まれる。ターゲット分類器中の複数のノードに予め設定された損失関数によって複数のテキストベクトル及び対応する次元特徴値を走査して計算して、複数のテキストベクトルに対応するターゲットノードを得、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率によってテキストベクトルに対応するカテゴリ結果を得、さらに診療録情報に対応するカテゴリ結果を得る。
ステップ212で、診療録情報に対応するカテゴリ結果を端末にプッシュ通知する。
ターゲット分類器によって診療録情報を分類して、診療録情報に対応するカテゴリ結果を得た後、サーバーは診療録情報に対応するカテゴリ結果を対応する端末にプッシュ通知する。診療録情報に効率的な単語分割及び特徴抽出を行い、予めトレーニングして構築されたターゲット分類器を利用して抽出されたテキスト情報を分類することにより、診療録情報の分類の正確率を効果的に高めることができ、医療従事者がプッシュ通知された診療録情報に対応するカテゴリ結果に基づいて効率的に診断することに役立ち、医療従事者の診断効率を効果的に高める。
例えば、診療録情報には受診者に対応する過去の診療録情報が含まれ、複数の既往歴の説明、過去の処方情報、過去の診断情報等データが含まれる。診療録情報に複数回のスクリーニング及びテキスト抽出を行った後、予めトレーニングされたターゲット分類器を利用して抽出されたテキストに分類分析を行い、当該受診者の診療録情報中の全てのデータに分類分析を行った後、当該診療録情報に対応するカテゴリ結果が得られる。例えば、受診者ががんに罹患している場合には、分類によってがんのカテゴリが特定される。
前記機械学習に基づく医療データ分類方法では、サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求に含まれた診療録情報に単語分割処理を行うことにより、効率的に医療分野別に単語分割を行って複数のテキストベクトルを得ることができ、さらにサーバーは複数のテキストベクトルに特徴抽出を行って、効率的に複数のテキストベクトル及び対応する特徴次元値を抽出することができる。さらにサーバーはターゲット分類器を取得し、ターゲット分類器は複数の医療データでトレーニングして得られ、ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算し、複数のテキストベクトルに対応するターゲットノードまで走査すると、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率に基づいて診療録情報に対応するカテゴリ結果を得ることにより、効率的に診療録情報に対応するカテゴリ結果を得ることができ、予めトレーニングして構築された分類器を利用して抽出されたテキストデータを分類することにより、診療録情報の分類の正確率が効果的に高められる。次にサーバーは診療録情報に対応するカテゴリ結果を対応する端末にプッシュ通知する。このようにして医療従事者がプッシュ通知された診療録情報に対応するカテゴリ結果に基づいて効率的に判断を与えることができ、診療録情報を正確に分類することにより、医療データの処理効率を効果的に高めることができる。
一実施例では、図3に示すとおり、診療録情報には複数のテキストデータが含まれ、診療録情報に単語分割処理を行うステップは、具体的にステップ302〜ステップ306を含む。
ステップ302で、予め設定された医療用語集を取得し、医療用語集には複数の医療用語が含まれ、診療録情報中の複数のテキストデータと医療用語集とのマッチングを行って、診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出する。
ステップ304で、マッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得る。
ステップ306で、単語分割後の複数のテキストデータにベクトル変換を行って、対応する複数のテキストベクトルを得る。
医療データを処理する前に、サーバーは予め医療用語集を構築してもよい。具体的には、サーバーは大量の医療データを取得し、前記大量の医療データに意味分析を行ってもよく、例えば、予め設定された意味分析モデルによって大量の医療データに意味分析を行って、複数のカテゴリの医療用語を得る。さらに、サーバーは分析して得た医療用語を利用して医療分野の複数のカテゴリに対応する医療用語集を生成する。
医療従事者は対応する端末を利用してサーバーに医療データ分類要求を送信してもよく、医療データ分類要求には診療録情報が含まれる。サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求中の診療録情報に単語分割処理を行う。具体的には、サーバーは予め設定された医療用語集を取得し、医療用語集には大量の医療用語及び対応するベクトルが含まれる。次にサーバーは診療録情報中の複数のテキストデータと医療用語集中の複数の医療用語とのマッチングを行い、具体的には、サーバーは予め設定された距離アルゴリズムによって診療録情報中のテキストデータと医療用語との類似度を計算し、診療録情報中のテキストデータと医療用語とのマッチング度を算出してもよい。さらにサーバーは予め設定されたマッチング度に達するテキストデータを抽出する。次にサーバーはマッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得る。
さらにサーバーは単語分割後の複数のテキストデータをベクトル化し、テキストデータを対応する定量情報に変換することによって、複数のテキストデータに対応する複数のテキストベクトルを得る。例えば、Doc2Vec及びWord2Vecアルゴリズムによって単語分割後の複数のテキストデータに単語のベクトル化及び段落のベクトル化を行って、対応するテキストベクトルを得てもよい。ここで、テキストベクトルはキャラクタベクトル、ワードベクトル、センテンスベクトル等を含んでもよい。
サーバーは複数のテキストデータに対応するテキストベクトルを得た後、予め設定されたアルゴリズムに従ってテキストベクトルの特徴次元値を算出し、複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。さらにサーバーは予め設定された分類器を取得し、分類器によって複数のテキストベクトル及び対応する特徴次元値に分類分析を行って、効率的に診療録情報に対応するカテゴリ結果を得ることができ、さらにサーバーは診療録情報に対応するカテゴリ結果を対応する端末にプッシュ通知する。診療録情報に効率的な単語分割及び特徴抽出を行い、予めトレーニングして構築された分類器を利用して抽出されたテキスト情報を分類することにより、診療録情報の分類の正確率を効果的に高めることができ、医療従事者がプッシュ通知された診療録情報に対応するカテゴリ結果に基づいて効率的に診断することに役立つ。
一実施例では、複数のテキストデータに特徴抽出を行って、複数のテキストベクトルに対応する多次元ベクトルを得るステップは、複数のテキストベクトルの単語出現頻度及び逆文書頻度を算出するステップと、単語出現頻度及び逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算するステップと、重みが予め設定された閾値に達するテキストベクトルを抽出するステップと、予め設定されたアルゴリズム及び重みに基づいて、テキストベクトルに対応する特徴次元値を計算するステップとを含む。
医療従事者は対応する端末を利用してサーバーに医療データ分類要求を送信してもよく、医療データ分類要求には診療録情報が含まれる。サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求中の診療録情報に単語分割処理を行って、複数のテキストベクトルを得る。
診療録情報に対応する複数のテキストベクトルを得た後、サーバーは予め設定されたアルゴリズムに従って単語分割後の複数のテキストベクトルの重みを計算する。例えば、サーバーはTF−IDFアルゴリズムによって複数のテキストベクトルのTF値及びIDF値を計算することができ、TF(Term Frequency、単語出現頻度)はテキストベクトルの出現頻度を示す。IDF(Inverse Document Frequency、逆文書頻度)は単語の一般的な重要度を示す尺度である。複数の単語のTF値及びIDF値に基づいて複数の対応する重みを計算し、例えば、TF値とIDF値の積を計算してテキストデータに対応する重みを得ることができる。
例えば、下式で複数のテキストベクトルのTF値を計算してもよい。
Figure 2021532499

テキストベクトルのIDF値の計算式は次のものであってもよい。
Figure 2021532499

テキストベクトルの重みの計算式は次のものであってもよい。
Figure 2021532499
テキストベクトルtを含む文書が少ない(nが小さい)ほど、IDFが大きいため、テキストベクトルtで効率的にカテゴリを区分することができる。あるカテゴリの文書Cでエントリーtを含む文書の数量がmで、他のカテゴリでtを含む文書の総数がkであれば、tを含む文書の総数はn=m+kであり、mが大きいと、nが大きく、IDF計算式から得たIDFの値が小さく、これは当該エントリーtで効率的にカテゴリを区分できないことを示す。あるカテゴリの文書でエントリーが頻繁に出現する場合には、当該エントリーが効果的に当該カテゴリのテキストの特徴を示すことができ、当該エントリーは重みが高い。TFとIDFの積を計算して、テキストベクトルの重みを算出すると、サーバーはテキストベクトルの重みに基づいてテキストベクトルに特徴抽出を行って、予め設定された閾値に達するテキストベクトルを抽出する。
予め設定された閾値に達するテキストベクトルを抽出した後、サーバーは予め設定されたアルゴリズム及びテキストベクトルの重みに基づいて複数のテキストベクトルの特徴次元値を算出し、特徴次元値はテキストベクトルの属する特徴次元を表す。テキストベクトルは複数の特徴次元を含んでもよく、テキストベクトルの重みを算出した後、サーバーは重みを利用してテキストベクトルの特徴次元の重要度を計算して、テキストベクトルに対応する特徴次元値を得てもよい。テキストベクトルの重みを算出し、重みによってテキストベクトルをフィルタリングすることにより、効率的にテキストベクトルに特徴抽出を行って、テキストベクトルに対応する特徴次元値を得ることができる。
一実施例では、図4に示すとおり、ターゲット分類器を取得する前に、ターゲット分類器を構築するステップをさらに含み、当該ステップは具体的にステップ402〜ステップ410を含む。
ステップ402で、複数の医療データを取得し、複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成する。
ターゲット分類器を取得する前に、サーバーはターゲット分類器を構築しこれをトレーニングする必要がある。具体的には、サーバーは予めローカルデータベース又は第三者データベースから大量の医療データを取得してもよく、医療データは医療診断情報、臨床データ及び調査研究データ等を含んでもよい。サーバーは大量の医療データからトレーニングセットデータ及び検証セットデータを生成し、ここで、トレーニングセットデータは人力でタグを付与したデータであってもよい。
ステップ404で、トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得る。
ステップ406で、クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出する。
ステップ408で、予め設定されたニューラルネットワークモデルを取得し、ニューラルネットワークモデルによってトレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築する。
ステップ410で、検証セットデータを利用して分類器の更なるトレーニング及び検証を行い、検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得る。
サーバーはまずトレーニングセットデータ中の医療データにデータクリーニング及びデータ前処理を行い、具体的には、サーバーは医療データに対応する複数のフィールドのデータをベクトル化して、複数のテキストデータに対応する特徴ベクトルを得、特徴ベクトルを対応する特徴変数に変換する。さらにサーバーは特徴変数に誘導処理を行って、処理後の複数の特徴変数を得る。例えば、特徴変数に欠落値の補足、異常値の抽出と置換等を行う。
さらにサーバーは予め設定されたクラスタリングアルゴリズムを用いてトレーニングセットデータに対応する特徴変数にクラスター分析を行う。例えば、予め設定されたクラスタリングアルゴリズムはk−means(k平均法)によってクラスタリングする方法であってもよい。サーバーは特徴変数に複数回のクラスタリングを行った後、複数のクラスタリング結果を得る。さらにサーバーは予め設定されたアルゴリズムに従って複数の特徴変数間の類似度を計算し、類似度が予め設定された閾値に達する特徴変数を抽出する。
例えば、サーバーは複数のクラスタリング結果中の特徴変数をそれぞれ組み合わせて、複数の組み合わせ特徴変数を得てもよい。ターゲット変数を取得し、ターゲット変数を利用して複数の組み合わせ特徴変数の相関性検証を行う。検証に問題がない場合に、組み合わせ特徴変数にインタラクティブタグを追加する。インタラクティブタグを追加した組み合わせ特徴変数を利用して対応する特徴変数を解析する。インタラクティブタグを追加した組み合わせ特徴変数は予め設定された閾値に達する特徴変数であってもよく、サーバーは予め設定された閾値に達する特徴変数を抽出する。特徴変数に特徴処理及び特徴抽出を行うことにより、価値のある特徴変数を効率的に抽出することができる。
サーバーは予め設定された機械学習モデルを取得し、例えば、決定木に基づくXgboot機械学習モデルであってもよい。例えば、機械学習モデルには複数のニューラルネットワークモデルが含まれ、ニューラルネットワークモデルは予め設定された入力層、複数のLSTM層、ドロップアウト(dropout)層及び出力層を含んでもよい。ニューラルネットワークモデルには複数のネットワークノードが含まれ、ここで、各層のネットワークノードのドロップアウト率は0.2であってもよい。ニューラルネットワークモデルのLSTM層は活性化関数及び損失関数を含み、LSTM層によって出力された全結合人工ニューラルネットワークも対応する活性化関数を含む。ニューラルネットワークモデルは誤差決定のための計算方法をさらに含み、例えば、平均二乗誤差アルゴリズムを用いてもよく、重みパラメータの決定のための反復更新方法をさらに含み、例えば、RMSpropアルゴリズムを用いてもよい。ニューラルネットワークモデルには出力結果の次元削減のために、通常のニューラルネットワーク層をさらに含んでもよい。
サーバーは予め設定されたニューラルネットワークモデルを取得した後、学習及びトレーニングのためにトレーニングセットデータ中の医療データをニューラルネットワークモデルに入力する。サーバーはトレーニングセット中の大量の医療データをトレーニングした後、複数の特徴変数に対応する特徴次元値及び重みを得ることができ、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築する。
サーバーは初期分類器を得た後、検証セットデータを取得し、検証セットデータ中の大量の医療データによって構築された初期分類器のトレーニング及び検証を行う。検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、トレーニング済みのターゲット分類器を得る。大量の医療データのトレーニング及び学習により、予測正確率が高い分類器を効率的に構築することができ、医療データの分類の正確率を効果的に高める。
一実施例では、テキストには複数のテキストセンテンスが含まれ、複数のテキストセンテンスがテキストブロックを構成し、分類器の複数のニューラルネットワークノードによって複数のテキストベクトル及び対応する特徴次元値を走査して複数のテキストベクトルに対応するカテゴリを計算するステップは、ターゲット分類器を利用して特徴次元値から複数のテキストベクトル間の相関性を計算し、相関性に基づいてテキストで文と認められるテキストセンテンスを計算し、テキストセンテンスのセンテンスベクトルを計算するステップと、センテンスベクトルの特徴を抽出し、複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、テキストブロックに対して対応するカテゴリタグを追加するステップとを含む。
医療従事者は対応する端末を利用してサーバーに医療データ分類要求を送信してもよく、医療データ分類要求には診療録情報が含まれる。サーバーは端末が送信した医療データ分類要求を受信した後、医療データ分類要求中の診療録情報に単語分割処理を行って、複数のテキストデータに対応するテキストベクトルを得る。さらにサーバーはテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る。
サーバーは複数のテキストベクトル及び対応する特徴次元値を抽出した後、ターゲット分類器を取得し、複数のテキストベクトル及び対応する特徴次元値をターゲット分類器の入力とする。ここで、ターゲット分類器には複数の予め設定されたニューラルネットワーク層ノード及び対応するノード重みが含まれ、ターゲット分類器中の複数のニューラルネットワーク層ノードによって複数のテキストベクトル及び対応する特徴次元値を走査して計算する。具体的には、テキストには複数の単語及び短い文、即ちテキストセンテンスが含まれてもよい。テキストベクトルはワードベクトル及びフレーズベクトルを含んでもよい。サーバーはまずテキストベクトル及び対応する次元特徴値に基づいてテキスト中の複数のテキストベクトル間の相関性を算出し、相関性に基づいてテキストで文と認められるテキストセンテンスを計算し、テキストセンテンスに対応するセンテンスベクトルを算出してもよい。次にサーバーはセンテンスベクトルの特徴を抽出し、複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出する。ここで、テキストブロックは複数のテキストセンテンスを含み、テキストブロックベクトルは複数のセンテンスベクトルから構成されてもよい。サーバーは複数のニューラルネットワーク層ノードに予め設定された損失関数によってテキストブロックベクトルの各カテゴリに属する確率を計算し、カテゴリ確率に基づいて複数のテキストブロックベクトルを次のニューラルネットワーク層ノードに入力して計算し、複数のテキストブロックベクトルに対応するターゲットノードを得ると、ターゲットノードによって複数のテキストブロックベクトルに対応するカテゴリ確率を算出し、カテゴリ確率が最も高いカテゴリ結果を取得することにより、複数のテキストブロックベクトルの属するカテゴリ結果を得る。大量のデータでトレーニングして得たターゲット分類器を利用して診療録情報中のテキストベクトルを分類することにより、効率的にかつ正確に診療録情報の属するカテゴリを得ることができ、診療録情報の分類の正確率を効果的に高めることができる。
一実施例では、当該方法は、予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得するステップと、複数の過去医療データにクラスター分析を行って、分析結果を得るステップと、分析結果に基づいて特徴選択を行って、複数の特徴変数を得るステップと、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算するステップと、複数の特徴変数及び対応する重みに基づいて分類器の最適化を行って調整するステップとをさらに含む。
サーバーはトレーニングしてターゲット分類器を得た後、予め設定された頻度に基づいて分類器のパラメータの最適化を行って調整してもよい。具体的には、サーバーは予め設定された頻度に基づいてローカルデータベース又は第三者データベースから大量の過去医療データを取得してもよく、例えば、予め設定された頻度は1か月、3か月、6か月等であってもよく、サーバーは過去1か月、3か月又は6か月までの医療データを取得することができ、過去の医療データは医療診断情報、臨床データ及び調査研究データ等を含んでもよい。
サーバーはまず大量の過去医療データを取得してデータクリーニング及びデータ前処理を行い、具体的には、サーバーは過去医療データに対応する複数のフィールドのデータをベクトル化し、複数のフィールドのデータに対応する特徴変数を得、特徴変数に誘導処理を行って、処理後の複数の特徴変数を得る。例えば、特徴変数に欠落値の補足、異常値の抽出と置換等を行う。
さらにサーバーは予め設定されたクラスタリングアルゴリズムを用いてトレーニングセットデータに対応する特徴変数にクラスター分析を行う。例えば、予め設定されたクラスタリングアルゴリズムはk−means(k平均法)によってクラスタリングする方法であってもよい。サーバーは特徴変数に複数回のクラスタリングを行った後、複数のクラスタリング結果を得る。さらにサーバーは予め設定されたアルゴリズムに従って複数の特徴変数間の類似度を計算し、類似度が予め設定された閾値に達する特徴変数を抽出する。
例えば、サーバーは複数のクラスタリング結果中の特徴変数をそれぞれ組み合わせて、複数の組み合わせ特徴変数を得てもよい。ターゲット変数を取得し、ターゲット変数を利用して複数の組み合わせ特徴変数の相関性検証を行う。検証に問題がない場合に、組み合わせ特徴変数にインタラクティブタグを追加する。インタラクティブタグを追加した組み合わせ特徴変数を利用して対応する特徴変数を解析する。インタラクティブタグを追加した組み合わせ特徴変数は予め設定された閾値に達する特徴変数であってもよく、サーバーは予め設定された閾値に達する特徴変数を抽出する。特徴変数に特徴処理及び特徴抽出を行うことにより、価値のある特徴変数を効率的に抽出することができる。
さらにサーバーは予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算し、複数の特徴変数及び対応する重みに基づいてターゲット分類器の最適化を行って調整する。具体的には、サーバーは複数の特徴変数及び対応する重みに基づいてターゲット分類器のパラメータを調整してもよく、効率的にターゲット分類器のパラメータの最適化を行って調整することができる。
なお、図2〜図4のフローチャートで各ステップは矢印に従って順番に示されるが、これらのステップは必ずしも矢印が示す順番に実行されるとは限らない。本明細書で指定がない限り、これらのステップの実行に順番上の制限はなく、これらのステップは他の順番で実行されてもよい。また、図2〜図4で少なくとも一部のステップは複数のサブステップ又は複数のステージを含んでもよく、これらのサブステップ又はステージは必ずしも同時に実行されるとは限らず、異なる時間で実行されてもよく、これらのサブステップ又はステージの実行は必ずしも順番通り行うとは限らず、他のステップ、サブステップ又はステージの少なくとも一部と入れ替えて実行されてもよい。
一実施例では、図5に示すとおり、機械学習に基づく医療データ分類装置を提供し、要求受信モジュール502と、単語分割処理モジュール504と、特徴抽出モジュール506と、データ分類モジュール508と、データプッシュ通知モジュール510とを含み、ここで、要求受信モジュール502は、端末が送信した医療データ分類要求を受信するために用いられ、医療データ分類要求は診療録情報を含む。
単語分割処理モジュール504は、予め設定された医療用語集を取得し、医療用語集中の医療用語に基づいて診療録情報に単語分割処理を行って、複数のテキストベクトルを得るために用いられる。
特徴抽出モジュール506は、複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るために用いられる。
データ分類モジュール508は、ターゲット分類器を取得し、ターゲット分類器の複数のニューラルネットワークノードによって複数のテキストベクトル及び対応する特徴次元値を走査して計算するために用いられ、ターゲット分類器は複数の医療データでトレーニングして得られ、さらに、複数のテキストベクトルに対応するターゲットノードまで走査すると、ターゲットノードに基づいて複数のテキストベクトルに対応するカテゴリ確率を計算し、カテゴリ確率に基づいて診療録情報に対応するカテゴリ結果を得るために用いられる。
データプッシュ通知モジュール510は、診療録情報に対応するカテゴリ結果を端末にプッシュ通知するために用いられる。
一実施例では、診療録情報には複数のテキストデータが含まれ、単語分割処理モジュール504は予め設定された複数の医療用語を含む医療用語集を取得し、診療録情報中の複数のテキストデータと医療用語集とのマッチングを行って、診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出し、マッチング後のテキストデータに基づいて診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得、単語分割後の複数のテキストデータをベクトル化し、複数のテキストベクトルを得るためにも用いられる。
一実施例では、特徴抽出モジュール506は複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算し、単語出現頻度及び逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算し、重みが予め設定された閾値に達するテキストベクトルを抽出し、予め設定されたアルゴリズム及び重みに基づいて、テキストベクトルに対応する特徴次元値を計算するためにも用いられる。
一実施例では、当該装置はターゲット分類器構築モジュールをさらに含み、前記モジュールは、複数の医療データを取得し、複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成し、トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得、クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出し、予め設定されたニューラルネットワークモデルを取得し、ニューラルネットワークモデルによってトレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築し、検証セットデータを利用して分類器の更なるトレーニング及び検証を行い、検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るために用いられる。
一実施例では、テキストには複数のテキストセンテンスが含まれ、複数のテキストセンテンスがテキストブロックを構成し、データ分類モジュール508はターゲット分類器を利用して特徴次元値から複数のテキストベクトル間の相関性を計算し、相関性に基づいてテキストで文と認められるテキストセンテンスを計算し、テキストセンテンスのセンテンスベクトルを計算し、センテンスベクトルの特徴を抽出し、複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出し、テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、テキストブロックに対して対応するカテゴリタグを追加するためにも用いられる。
一実施例では、当該装置はターゲット分類器最適化モジュールをさらに含み、前記モジュールは予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得し、複数の過去医療データにクラスター分析を行って、分析結果を得、分析結果に基づいて特徴選択を行って、複数の特徴変数を得、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算し、複数の特徴変数及び対応する重みに基づいてターゲット分類器の最適化を行って調整するために用いられる。
機械学習に基づく医療データ分類装置の具体的な説明は機械学習に基づく医療データ分類方法に関する上記の具体的な説明を参照することができ、ここでその説明は省略する。前記機械学習に基づく医療データ分類装置の各モジュールは全て又は一部がソフトウェア、ハードウェア又は両者の組み合わせとして実装することができる。前記各モジュールはハードウェアとしてコンピュータデバイスのプロセッサに埋め込まれ又は独立して設けられてもよいし、プロセッサが前記各モジュールに対応する動作を呼び出して実行するようにソフトウェアとしてコンピュータデバイスのメモリに記憶されてもよい。
一実施例では、コンピュータデバイスを提供し、当該コンピュータデバイスはサーバーであってもよく、その内部構造は図6に示すとおりであってもよい。当該コンピュータデバイスはシステムバスを介して接続されたプロセッサ、メモリ、ネットワークインタフェース及びデータベースを含む。ここで、当該コンピュータデバイスのプロセッサはコンピューティング機能及びコントロール機能を提供するために用いられる。当該コンピュータデバイスのメモリは不揮発性記憶媒体、内部ストレージを含む。当該不揮発性記憶媒体にはオペレーティングシステム、コンピュータ可読コマンド及びデータベースが記憶されている。当該内部ストレージは不揮発性記憶媒体内のオペレーティングシステム及びコンピュータ可読コマンドの動作環境を提供する。当該コンピュータデバイスのデータベースは医療データ、診療録情報等データを記憶するために用いられる。当該コンピュータデバイスのネットワークインタフェースはネットワークによって外部の端末と接続して通信するために用いられる。当該コンピュータ可読コマンドがプロセッサによって実行される時には、本発明の任意の一実施例に係る機械学習に基づく医療データ分類方法のステップが実行される。
当業者が理解したように、図6に示す構造は、本発明の技術的解決手段に関連する部分の構造のブロック図であり、本発明の技術的解決手段が適用されるコンピュータデバイスを限定するものではなく、コンピュータデバイスによって図示よりも多くの又は少ないコンポーネントを含んでもよいし、一部のコンポーネントを組み合わせてもよいし、コンポーネントの構成が異なってもよい。
当業者が理解したように、前記実施例の方法の全ての又は一部のプロセスの実行は、コンピュータ可読コマンドが関連のハードウェアに指示を与えることで完了してもよく、前記コンピュータ可読コマンドは不揮発性コンピュータ可読記憶媒体に記憶されてもよく、当該コンピュータ可読コマンドが実行される時には、前記各方法の実施例のプロセスが行われてもよい。ここで、本発明の各実施例でメモリ、記憶、データベース又は他の媒体が言及される場合に、いずれも不揮発性及び/又は揮発性メモリが含まれる。不揮発性メモリには読み取り専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、フラッシュメモリが含まれる。揮発性メモリにはランダムアクセスメモリ(RAM)、外部キャッシュメモリが含まれる。非限定的にRAMは、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、拡張SDRAM(ESDRAM)、シンクリンク(Synchlink)DRAM(SLDRAM)、ラムバス(Rambus)ダイレクトRAM(RDRAM)、ダイレクトラムバスダイナミックRAM(DRDRAM)、ラムバスダイナミックRAM(RDRAM)等の様々なタイプであってもよい。
前記実施例に係る各技術的特徴は任意に組み合わせることができ、説明の簡素化のために、前記実施例の各技術的特徴の可能な組み合わせの全てを説明しているわけではない。ただし、これらの技術的特徴の組み合わせに矛盾するものがなければ、本明細書の記載範囲と見なされる。
前記実施例は本発明のいくつかの実施形態を具体的にかつ詳細に説明しているが、これは発明特許の範囲を限定するものと見なされない。なお、当業者は本発明の趣旨を逸脱することなく様々な変形や改善を行うことができ、これらも本発明の保護範囲に含まれる。したがって、本発明の保護範囲は付記の特許請求の範囲に準拠する。

Claims (20)

  1. 端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、
    予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、
    前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、
    ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、
    前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、
    前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとを含む、機械学習に基づく医療データ分類方法。
  2. 前記診療録情報には複数のテキストデータが含まれ、前記診療録情報に単語分割処理を行う前記ステップは、
    予め設定された複数の医療用語を含む医療用語集を取得し、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出するステップと、
    マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得るステップと、
    前記単語分割後の複数のテキストデータにベクトル変換を行って、複数のテキストベクトルを得るステップとを含むことを特徴とする、請求項1に記載の方法。
  3. 前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得る前記ステップは、
    前記複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算するステップと、
    前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算するステップと、
    前記重みが予め設定された閾値に達するテキストベクトルを抽出するステップと、
    予め設定されたアルゴリズム及び前記重みに基づいて前記テキストベクトルに対応する特徴次元値を計算するステップとを含むことを特徴とする、請求項1に記載の方法。
  4. 前記ターゲット分類器を構築するステップは、
    複数の医療データを取得し、前記複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成するステップと、
    前記トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得るステップと、
    前記クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出するステップと、
    予め設定されたニューラルネットワークモデルを取得し、前記ニューラルネットワークモデルによって前記トレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築するステップと、
    前記検証セットデータを利用して前記初期分類器の更なるトレーニング及び検証を行い、前記検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るステップとを含むことを特徴とする、請求項1に記載の方法。
  5. テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して複数のテキストベクトルに対応するカテゴリを計算する前記ステップは、
    前記ターゲット分類器を利用して前記特徴次元値から前記複数のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算するステップと、
    前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、
    前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するステップとを含むことを特徴とする、請求項1から4のいずれか1項に記載の方法。
  6. 予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得するステップと、
    複数の過去医療データにクラスター分析を行って、分析結果を得るステップと、
    前記分析結果に基づいて特徴選択を行って、複数の特徴変数を得るステップと、
    予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算するステップと、
    複数の特徴変数及び対応する重みに基づいて前記ターゲット分類器の最適化を行って調整するステップとをさらに含むことを特徴とする、請求項1に記載の方法。
  7. 端末が送信した医療データ分類要求を受信するために用いられ、前記医療データ分類要求は診療録情報を含む要求受信モジュールと、
    予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るための単語分割処理モジュールと、
    前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るための特徴抽出モジュールと、
    ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するために用いられ、前記ターゲット分類器は複数の医療データでトレーニングして得られるデータ分類モジュールであって、前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るデータ分類モジュールと、
    前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するためのデータプッシュ通知モジュールとを含む、機械学習に基づく医療データ分類装置。
  8. 前記単語分割処理モジュールは予め設定された複数の医療用語を含む医療用語集を取得し、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出し、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得、前記単語分割後の複数のテキストデータをベクトル化して、複数のテキストベクトルを得るためにも用いられることを特徴とする、請求項7に記載の装置。
  9. 前記特徴抽出モジュールは、前記複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算し、前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算し、前記重みが予め設定された閾値に達するテキストベクトルを抽出し、予め設定されたアルゴリズム及び前記重みに基づいて前記テキストベクトルに対応する特徴次元値を計算するためにも用いられることを特徴とする、請求項7に記載の装置。
  10. 分類器構築モジュールであって、複数の医療データを取得し、前記複数の医療データに基づいて対応するトレーニングセットデータ及び検証セットデータを生成し、前記トレーニングセットデータ中の複数の医療データにクラスター分析を行って、クラスタリング結果を得、前記クラスタリング結果に特徴抽出を行って、複数の特徴変数を抽出し、予め設定されたニューラルネットワークモデルを取得し、前記ニューラルネットワークモデルによって前記トレーニングセットデータをトレーニングすることにより、複数の特徴変数に対応する特徴次元値及び重みを得、複数の特徴変数に対応する特徴次元値及び重みに基づいて初期分類器を構築し、前記検証セットデータを利用して前記初期分類器の更なるトレーニング及び検証を行い、前記検証セットデータで予め設定された閾値を満たすデータの数量が予め設定された比率に達すると、トレーニングを終了し、所定のターゲット分類器を得るための分類器構築モジュールをさらに含むことを特徴とする、請求項7に記載の装置。
  11. テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記データ分類モジュールは、前記ターゲット分類器を利用して前記特徴次元値から前記複数のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算し、前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出し、前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するためにも用いられることを特徴とする、請求項7に記載の装置。
  12. モデル最適化モジュールであって、予め設定された頻度に基づいて、予め設定されたデータベースから複数の過去医療データを取得し、複数の過去医療データにクラスター分析を行って、分析結果を得、前記分析結果に基づいて特徴選択を行って、複数の特徴変数を得、予め設定されたアルゴリズムに従って複数の特徴変数の重みを計算し、複数の特徴変数及び対応する重みに基づいて前記ターゲット分類器の最適化を行って調整するモデル最適化モジュールをさらに含むことを特徴とする、請求項7に記載の装置。
  13. メモリと、プロセッサとを含み、前記メモリには少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドが前記プロセッサによってロードされると、
    端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、
    予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、
    前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、
    ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、
    前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、
    前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとが実行される、コンピュータデバイス。
  14. 前記診療録情報には複数のテキストデータが含まれ、前記プロセッサがコンピュータ可読コマンドを実行する時には、予め設定された医療用語集を取得するステップであって、前記医療用語集には複数の医療用語が含まれるステップと、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出するステップと、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得るステップと、前記単語分割後の複数のテキストデータにベクトル変換を行って、複数のテキストベクトルを得るステップとをさらに実行することを特徴とする、請求項13に記載のコンピュータデバイス。
  15. 前記プロセッサがコンピュータ可読コマンドを実行する時には、前記複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算するステップと、前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算するステップと、前記重みが予め設定された閾値に達するテキストベクトルを抽出するステップと、予め設定されたアルゴリズム及び前記重みに基づいて前記テキストベクトルに対応する特徴次元値を計算するステップとをさらに実行ことを特徴とする、請求項13に記載のコンピュータデバイス。
  16. テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記プロセッサがコンピュータ可読コマンドを実行する時には、前記ターゲット分類器を利用して前記特徴次元値から前記複数のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算するステップと、前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するステップとをさらに実行することを特徴とする、請求項13に記載のコンピュータデバイス。
  17. 不揮発性コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には少なくとも1つのコンピュータ可読コマンドが記憶されており、前記コンピュータ可読コマンドがプロセッサによってロードされると、
    端末が送信した医療データ分類要求を受信するステップであって、前記医療データ分類要求は診療録情報を含むステップと、
    予め設定された医療用語集を取得し、前記医療用語集中の医療用語に基づいて前記診療録情報に単語分割処理を行って、複数のテキストベクトルを得るステップと、
    前記複数のテキストベクトルに特徴抽出を行って、複数のテキストベクトル及び対応する特徴次元値を得るステップと、
    ターゲット分類器を取得し、前記ターゲット分類器の複数のニューラルネットワークノードによって前記複数のテキストベクトル及び対応する特徴次元値を走査して計算するステップであって、前記ターゲット分類器は複数の医療データでトレーニングして得られるステップと、
    前記複数のテキストベクトルに対応するターゲットノードまで走査すると、前記ターゲットノードに基づいて前記複数のテキストベクトルに対応するカテゴリ確率を計算し、前記カテゴリ確率に基づいて前記診療録情報に対応するカテゴリ結果を得るステップと、
    前記診療録情報に対応するカテゴリ結果を前記端末にプッシュ通知するステップとが実行される、不揮発性コンピュータ可読記憶媒体。
  18. 前記診療録情報には複数のテキストデータが含まれ、前記コンピュータ可読コマンドが前記プロセッサによって実行される時には、予め設定された医療用語集を取得するステップであって、前記医療用語集には複数の医療用語が含まれるステップと、前記診療録情報中の複数のテキストデータと前記医療用語集とのマッチングを行って、前記診療録情報中のテキストデータと複数の医療用語とのマッチング度を計算し、予め設定されたマッチング度に達するテキストデータを抽出するステップと、マッチング後のテキストデータに基づいて前記診療録情報に単語分割を行って、単語分割後の複数のテキストデータを得るステップと、前記単語分割後の複数のテキストデータにベクトル変換を行って、複数のテキストベクトルを得るステップとがさらに実行されることを特徴とする、請求項17に記載の記憶媒体。
  19. 前記コンピュータ可読コマンドが前記プロセッサによって実行される時には、前記複数のテキストベクトルの単語出現頻度及び逆文書頻度を計算するステップと、前記単語出現頻度及び前記逆文書頻度に基づいて、予め設定されたアルゴリズムに従って複数のテキストベクトルの重みを計算するステップと、前記重みが予め設定された閾値に達するテキストベクトルを抽出するステップと、予め設定されたアルゴリズム及び前記重みに基づいて前記テキストベクトルに対応する特徴次元値を計算するステップとがさらに実行されることを特徴とする、請求項17に記載の記憶媒体。
  20. テキストには複数のテキストセンテンスが含まれ、前記複数のテキストセンテンスがテキストブロックを構成し、前記コンピュータ可読コマンドが前記プロセッサによって実行される時には、前記ターゲット分類器を利用して前記特徴次元値から前記複数のテキストベクトル間の相関性を計算し、前記相関性に基づいて前記テキストで文と認められるテキストセンテンスを計算し、前記テキストセンテンスのセンテンスベクトルを計算するステップと、前記センテンスベクトルの特徴を抽出し、前記複数のセンテンスベクトルの特徴に基づいてテキストブロックベクトルを算出するステップと、前記テキストブロックベクトルの各カテゴリに対応する確率を計算し、予め設定された確率値に達するカテゴリを抽出し、前記テキストブロックに対して対応するカテゴリタグを追加するステップとがさらに実行されることを特徴とする、請求項17に記載の記憶媒体。
JP2021506440A 2019-03-07 2019-06-12 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体 Active JP7162726B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910171593.0 2019-03-07
CN201910171593.0A CN110021439B (zh) 2019-03-07 2019-03-07 基于机器学习的医疗数据分类方法、装置和计算机设备
PCT/CN2019/090873 WO2020177230A1 (zh) 2019-03-07 2019-06-12 基于机器学习的医疗数据分类方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021532499A true JP2021532499A (ja) 2021-11-25
JP7162726B2 JP7162726B2 (ja) 2022-10-28

Family

ID=67189351

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021506440A Active JP7162726B2 (ja) 2019-03-07 2019-06-12 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体

Country Status (5)

Country Link
US (1) US20210257066A1 (ja)
JP (1) JP7162726B2 (ja)
CN (1) CN110021439B (ja)
SG (1) SG11202008485XA (ja)
WO (1) WO2020177230A1 (ja)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491519B (zh) * 2019-07-17 2024-01-02 上海明品医学数据科技有限公司 一种医学数据的检验方法
CN110472049B (zh) * 2019-07-19 2023-01-24 上海联影智能医疗科技有限公司 疾病筛查文本分类方法、计算机设备和可读存储介质
CN110427486B (zh) * 2019-07-25 2022-03-01 北京百度网讯科技有限公司 身体病况文本的分类方法、装置及设备
CN110765265B (zh) * 2019-09-06 2023-04-11 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN110781298B (zh) * 2019-09-18 2023-06-20 平安科技(深圳)有限公司 药品分类方法、装置、计算机设备及存储介质
CN110767318A (zh) * 2019-10-11 2020-02-07 平安医疗健康管理股份有限公司 医疗数据异常检测方法、装置、计算机设备和存储介质
CN111081370B (zh) * 2019-10-25 2023-11-03 中国科学院自动化研究所 一种用户分类方法及装置
CN110797101B (zh) * 2019-10-28 2023-11-03 腾讯医疗健康(深圳)有限公司 医学数据处理方法、装置、可读存储介质和计算机设备
CN110875093A (zh) * 2019-11-19 2020-03-10 泰康保险集团股份有限公司 治疗方案的处理方法、装置、设备及存储介质
CN111178064B (zh) * 2019-12-13 2022-11-29 深圳平安医疗健康科技服务有限公司 基于字段分词处理的信息推送方法、装置和计算机设备
CN111177375B (zh) * 2019-12-16 2023-06-02 医渡云(北京)技术有限公司 一种电子文档分类方法及装置
CN111128391B (zh) * 2019-12-24 2021-01-12 推想医疗科技股份有限公司 一种信息处理设备、方法和存储介质
CN111178070B (zh) * 2019-12-25 2022-11-25 深圳平安医疗健康科技服务有限公司 基于分词的单词序列获取方法、装置和计算机设备
CN111477320B (zh) * 2020-03-11 2023-05-30 北京大学第三医院(北京大学第三临床医学院) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN111755118B (zh) * 2020-03-16 2024-03-08 腾讯科技(深圳)有限公司 医疗信息处理方法、装置、电子设备及存储介质
CN111403028B (zh) * 2020-03-19 2022-12-06 医渡云(北京)技术有限公司 医疗文本分类方法及装置、存储介质、电子设备
CN111415751B (zh) * 2020-03-19 2023-08-08 北京嘉和海森健康科技有限公司 电子病历数据的主题切分方法、装置及系统
CN111522795A (zh) * 2020-04-23 2020-08-11 北京互金新融科技有限公司 处理数据的方法和装置
CN113744851A (zh) * 2020-05-27 2021-12-03 阿里巴巴集团控股有限公司 一种就医分组方法、设备及存储介质
CN111949795A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 工单自动分类方法及装置
CN111951976B (zh) * 2020-08-21 2024-03-22 上海交通大学医学院附属第九人民医院 基于医学资料余量的价值判断方法、系统、终端以及介质
CN112632222B (zh) * 2020-12-25 2023-02-03 海信视像科技股份有限公司 一种终端设备和确定数据所属领域的方法
CN112749277B (zh) * 2020-12-30 2023-08-04 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112836492B (zh) * 2021-01-30 2024-03-08 云知声智能科技股份有限公司 一种医疗项目名称对齐方法
CN112579916B (zh) * 2021-03-01 2021-05-25 广州汇图计算机信息技术有限公司 一种基于多渠道用户信息的数据处理系统
CN113380414B (zh) * 2021-05-20 2023-11-10 心医国际数字医疗系统(大连)有限公司 基于大数据的数据采集方法及系统
CN113377911B (zh) * 2021-06-09 2022-10-14 广东电网有限责任公司广州供电局 一种文本信息提取方法、装置、电子设备及存储介质
CN113270181A (zh) * 2021-06-22 2021-08-17 中国平安人寿保险股份有限公司 指标数据的区分方法、装置、设备及存储介质
CN113421653B (zh) * 2021-06-23 2022-09-09 平安科技(深圳)有限公司 医疗信息的推送方法及装置、存储介质、计算机设备
CN113421632A (zh) * 2021-07-09 2021-09-21 中国人民大学 一种基于时间序列的心理疾病类型诊断系统
CN113591458B (zh) * 2021-07-29 2023-09-01 平安科技(深圳)有限公司 基于神经网络的医学术语处理方法、装置、设备及存储介质
CN113569996B (zh) * 2021-08-30 2024-05-07 平安医疗健康管理股份有限公司 病案信息的分类方法、装置、设备以及存储介质
CN113779275B (zh) * 2021-09-18 2024-02-09 中国平安人寿保险股份有限公司 基于医疗数据的特征提取方法、装置、设备及存储介质
CN113822365B (zh) * 2021-09-28 2023-09-05 北京恒生芸泰网络科技有限公司 基于区块链技术的医疗数据存储及大数据挖掘方法及系统
CN113821641B (zh) * 2021-09-29 2024-04-05 深圳平安医疗健康科技服务有限公司 基于权重分配的药品分类的方法、装置、设备及存储介质
CN113806492B (zh) * 2021-09-30 2024-02-06 中国平安人寿保险股份有限公司 基于语义识别的记录生成方法、装置、设备及存储介质
CN113641799B (zh) * 2021-10-13 2022-02-11 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备及存储介质
CN114003791B (zh) * 2021-12-30 2022-04-08 之江实验室 基于深度图匹配的医疗数据元自动化分类方法及系统
CN114582494B (zh) * 2022-03-03 2022-11-15 数坤(北京)网络科技股份有限公司 诊断结果分析方法、装置、存储介质及电子设备
CN115146712B (zh) * 2022-06-15 2023-04-28 北京天融信网络安全技术有限公司 物联网资产识别方法、装置、设备及存储介质
CN114913953B (zh) * 2022-07-19 2022-10-04 北京惠每云科技有限公司 医学实体关系的识别方法、装置、电子设备及存储介质
CN115269838B (zh) * 2022-07-20 2023-06-23 北京新纽科技有限公司 一种电子病历的分类方法
CN115314550B (zh) * 2022-08-17 2023-08-25 常州市儿童医院(常州市第六人民医院) 基于数字化的智慧医疗信息推送方法及系统
CN115391494B (zh) * 2022-10-27 2023-02-17 北京元知创智科技有限公司 中医症候智能识别方法及装置
CN116049693B (zh) * 2023-03-17 2023-06-06 济南市计量检定测试院 一种基于医疗设备的计量检定数据管理方法
CN116092672A (zh) * 2023-03-21 2023-05-09 四川大学华西医院 谵妄识别装置
CN116842330B (zh) * 2023-08-31 2023-11-24 庆云县人民医院 一种可对比历史记录的保健信息处理方法及装置
CN117312963B (zh) * 2023-11-29 2024-03-12 山东企联信息技术股份有限公司 一种采集信息数据智能分类方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785075A (zh) * 2017-11-01 2018-03-09 杭州依图医疗技术有限公司 基于文本病历的小儿发热疾病深度学习辅助诊断系统
CN107863147A (zh) * 2017-10-24 2018-03-30 清华大学 基于深度卷积神经网络的医疗诊断的方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486791A (zh) * 2010-12-06 2012-06-06 腾讯科技(深圳)有限公司 书签智能分类的方法和服务器
US20150286783A1 (en) * 2014-04-02 2015-10-08 Palo Alto Research Center Incorporated Peer group discovery for anomaly detection
CN104750833A (zh) * 2015-04-03 2015-07-01 浪潮集团有限公司 一种文本分类方法及装置
US20170228500A1 (en) * 2016-02-09 2017-08-10 Justin Massengale Process of generating medical records
WO2018157330A1 (zh) * 2017-03-01 2018-09-07 深圳市博信诺达经贸咨询有限公司 大数据的划分方法及系统
CN107680689A (zh) * 2017-05-05 2018-02-09 平安科技(深圳)有限公司 医疗文本的潜在疾病推断方法、系统及可读存储介质
CN107808011B (zh) * 2017-11-20 2021-04-13 北京大学深圳研究院 信息的分类抽取方法、装置、计算机设备和存储介质
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
AU2019392537A1 (en) * 2018-12-03 2021-07-01 Tempus Ai, Inc. Clinical concept identification, extraction, and prediction system and related methods

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107863147A (zh) * 2017-10-24 2018-03-30 清华大学 基于深度卷积神经网络的医疗诊断的方法
CN107785075A (zh) * 2017-11-01 2018-03-09 杭州依图医疗技术有限公司 基于文本病历的小儿发热疾病深度学习辅助诊断系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
衛藤亮太ほか: "深層学習を用いた電子カルテ医療情報の多角的解析", 情報処理学会研究報告 [ONLINE], vol. Vol.2017-DBS-165, No.8, JPN6022014151, 11 September 2017 (2017-09-11), pages 1 - 7, ISSN: 0004749261 *

Also Published As

Publication number Publication date
CN110021439A (zh) 2019-07-16
SG11202008485XA (en) 2020-10-29
WO2020177230A1 (zh) 2020-09-10
CN110021439B (zh) 2023-01-24
JP7162726B2 (ja) 2022-10-28
US20210257066A1 (en) 2021-08-19

Similar Documents

Publication Publication Date Title
JP2021532499A (ja) 機械学習に基づく医療データ分類方法、装置、コンピュータデバイス及び記憶媒体
CN108986908B (zh) 问诊数据处理方法、装置、计算机设备和存储介质
CN110765265B (zh) 信息分类抽取方法、装置、计算机设备和存储介质
WO2020177377A1 (zh) 基于机器学习的数据预测处理方法、装置和计算机设备
KR102304673B1 (ko) 키워드 추출 방법, 컴퓨터 장치, 및 저장 매체
US11531824B2 (en) Cross-lingual information retrieval and information extraction
WO2021027553A1 (zh) 微表情分类模型生成、图像识别方法、装置、设备及介质
US10593422B2 (en) Interaction network inference from vector representation of words
CN108536800B (zh) 文本分类方法、系统、计算机设备和存储介质
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
US11468241B2 (en) Techniques to add smart device information to machine learning for increased context
US11551026B2 (en) Dynamic reconfiguration training computer architecture
WO2020147395A1 (zh) 基于情感的文本分类处理方法、装置和计算机设备
WO2020177365A1 (zh) 基于数据挖掘的社保数据处理方法、装置和计算机设备
US20210023331A1 (en) Computer architecture for identifying sleep stages
CN111914562B (zh) 电子信息分析方法、装置、设备及可读存储介质
WO2020034801A1 (zh) 医疗特征筛选方法、装置、计算机设备和存储介质
CN112418059B (zh) 一种情绪识别的方法、装置、计算机设备及存储介质
US20210375441A1 (en) Using clinical notes for icu management
CN113241193A (zh) 药物推荐模型训练方法、推荐方法、装置、设备及介质
US20230097940A1 (en) System and method for extracting and using groups of features for interpretability analysis
WO2018171499A1 (zh) 一种信息检测方法、设备及存储介质
CN113643283A (zh) 一种人体衰老状况的检测方法、装置、设备及存储介质
CN111782821B (zh) 基于fm模型的医学热点的预测方法、装置和计算机设备
Rajasekhar et al. A novel speech emotion recognition model using mean update of particle swarm and whale optimization-based deep belief network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221018

R150 Certificate of patent or registration of utility model

Ref document number: 7162726

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150