CN112948556B - 相似病例文本检索系统 - Google Patents

相似病例文本检索系统 Download PDF

Info

Publication number
CN112948556B
CN112948556B CN202110244613.XA CN202110244613A CN112948556B CN 112948556 B CN112948556 B CN 112948556B CN 202110244613 A CN202110244613 A CN 202110244613A CN 112948556 B CN112948556 B CN 112948556B
Authority
CN
China
Prior art keywords
cid
word
word vector
vector
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110244613.XA
Other languages
English (en)
Other versions
CN112948556A (zh
Inventor
张小霞
何海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bozhong Shuji Technology Co ltd
Original Assignee
Beijing Bozhong Shuji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bozhong Shuji Technology Co ltd filed Critical Beijing Bozhong Shuji Technology Co ltd
Priority to CN202110244613.XA priority Critical patent/CN112948556B/zh
Publication of CN112948556A publication Critical patent/CN112948556A/zh
Application granted granted Critical
Publication of CN112948556B publication Critical patent/CN112948556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种相似病例文本检索系统,包括:通信连接的服务器和客户端;服务器,存储有M条病例记录,其中,第i条病例记录包括记录ID、疾病ID和词向量集合Wi=(Wi1,Wi2,......,Win),Win为词向量集合Wi中的第n个词;客户端包括处理器和显示界面,处理器用于实现如下步骤:接收输入的文本信息并将文本信息生成词向量集合W=(W1,W2,......,Wn);确定W和Wi的相似度

Description

相似病例文本检索系统
本申请为如下中国专利申请的分案申请:
申请日:2020年12月30日
申请号:202011598867.3
发明名称:相似病例文本检索系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种相似病例文本检索系统。
背景技术
专利文献1(CN107657062A)提供了一种相似病例检索方法,该包括:通过提取病例数据库中的多个病例的多个字段内容并将多个字段内容转化为词向量,依据词向量对多个所述病例进行聚类并划分为多个聚类簇;提取原始病历中的字段内容并将字段内容转化为原始词向量;搜索与原始词向量最近的聚类簇,并将聚类簇内的多个病例进行排序并反馈。该方法能够减少检索时的数据计算量和提高检索效率,但是,并没有针对病例文本的特点进行处理,而是将病例文本按照通用文件进行处理,因此,会存在病例检索结果不准确和检索效率低的问题。
发明内容
有鉴于此,本发明的目的是提供一种相似病例文本检索系统,以解决现有技术中病例检索结果不准确和检索效率低的问题。
本发明采用的技术方案为:
本发明实施例提供一种相似病例文本检索系统,包括:通信连接的服务器和客户端;
所述服务器,存储有M条病例记录,其中,第i条病例记录包括记录ID、疾病ID和词向量集合Wi=(Wi1,Wi2,......,Win),Win为词向量集合Wi中的第n个词;
所述客户端包括处理器和显示界面,所述处理器用于执行计算机程序实现如下步骤:
S100,接收输入的文本信息并将文本信息生成词向量集合W=(W1,W2,......,Wn);
S200,确定W和Wi的相似度其中,z1为词向量W和词向量Wi的交集中的词的数量,z2为词向量W和词向量Wi的差集中的词的数量,αj为词向量W和词向量Wi的交集中第j个词的权重,βj为词向量W和词向量Wi的差集中第j个词的权重,θij为词向量集合Wi中的词Wij的权重;
S300,根据步骤S200获得的相似度Si,在所述显示界面上输出对应的检索结果。
本发明实施例提供的相似病例文本检索系统,适配病例文本的特点,将病例记录之间的相似度可通过两个病例记录对应的词向量集合的交集和差集得到,相比现有技术主要采用余弦距离或者专利文献1采用的方式来获得相似度,在保证相似度计算准确性的前提下,能够节约计算量,从而能够提高检索效率,简单高效。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合具体实施例进行详细描述。
在本发明的说明书和权利要求书的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的相似病例文本检索系统,包括:通信连接的服务器和客户端。
所述服务器,可部署在云端,存储有M条病例记录,其中,第i条病例记录包括记录ID(RIDi)、疾病ID(DIDi)和词向量集合Wi=(Wi1,Wi2,......,Win),Win为词向量集合Wi中的第n个词。例如,记录RID为描述病例的唯一代码文本,作为主索引,疾病DID为唯一描述疾病的代码文本或者疾病名称文本。词向量根据反应对应疾病DID的症状的结构化文本例如化验单,或非结构化文本例如病症病情描述文本确定,具体确定方法可以采用现有分词技术。
所述客户端,可部署在用户例如医生的办公室,包括处理器和显示界面,所述处理器用于执行计算机程序实现如下步骤:
S100,接收输入的文本信息并将文本信息生成词向量集合W=(W1,W2,......,Wn)。
输入的文本信息为需要检索的病例记录,可以自动输入或手动输入。自动输入例如即从化验设备读取的化验信息,手动输入例如用户(医生)通过键盘或语音输入设备输入的病症病情信息。生成词向量的方法优选与服务器中生成词向量的方法一致。
S200,确定W和Wi的相似度其中,z1为词向量W和词向量Wi的交集中的词的数量,z2为词向量W和词向量Wi的差集中的词的数量,αj为词向量W和词向量Wi的交集中第j个词的权重,βj为词向量W和词向量Wi的差集中第j个词的权重,θij为词向量集合Wi中的词Wij的权重。
在该步骤中,适配病例文本的特点,将病例记录之间的相似度可通过两个病例记录对应的词向量集合的交集和并集得到,相比现有技术主要采用余弦距离或者专利文献1采用的方式来获得相似度,在保证相似度计算准确性的前提下,能够节约计算量,从而能够提高检索效率,简单高效。
S300,根据步骤S200获得的相似度Si,在所述显示界面上输出对应的检索结果。
例如,检索结果可以瀑布流的方式呈现降序的Si;也可以以背景技术或现有技术中的方式呈现。
进一步地,在本发明的一个示例中,αj=1;βj=1;θij=1。进一步的,Si=z1/(z2+n)。
进一步地,在本发明实施例中,θij可与M条病例记录中词Wij出现的次数的总和反相关。
由于每天都会产生新的病例,服务器中的病例总数M也在不停的增加,θij也应该会发生变化,但是也不能说每增加一条病例记录,就更新θij,这样会占用过多的服务器资源。因此,需要一种平衡。具体的,本发明按照如下方式对θij进行更新:
进一步地,被存储到病例记录中,且进行动态更新。可选的,可按照预设周期例如每周更新一次或者当病例记录更新量超过预设阈值时更新,预设阈值可根据实际情况进行设置,例如,可为2000万条。进一步地,Wij和θij可作为索引对被存储到服务器中(不是病例记录)中,且进行动态更新。可选的,按照预设周期进行更新例如每周更新一次。相当于M个病例记录中所有去重后的词和对应的权重都被存储到服务器中。显然的,词向量W和词向量Wi的交集中第j个词的权重αj可通过在服务器中查询对应词的权重θij获取。进一步的,对于词向量W和词向量Wi的差集中第j个词的权重βj,如果词向量W与词向量Wi的差集中第j个词在服务器中的索引对中能够检索到,那么相对应的权重作为βj。如果检索不到,优选的,βj=0,且在显示界面上以特殊标记(例如颜色)呈现第j个词。
进一步地,在本发明实施例中,S300可进一步包括:
S310,如果Si大于D,则保留对应的第i条病例记录,作为显示的检索结果;否则,将第i条病例记录舍弃;D为预设的相似度阈值,可根据经验设置,例如,在设置D为0~1之间的系数时,优选,D可为0.3~0.5。
S320,根据S310,形成相似度大于D的检索结果集合,所述检索结果集合包括R条病例记录和R个疾病ID向量=(DID1,DID2,......,DIDR),R≤M。显然,得到的R个疾病ID向量中的DID里面是可以有重复的。
S330,对R个疾病ID向量进行去重,形成去重后的升序排序的Q个疾病ID向量=(CID1,CID2,......,CIDQ)和对应的次数=(N1,N2,......,NQ),其中,Q≤R,N1≤N2≤......≤NQ
通过步骤S330,能够将步骤S320中重复的DID进行去重合并成一个CID,即去重后的Q个疾病ID向量中某个向量CIDk可能对应多个DID,k的取值为1到Q。
S340,在所述客户端的显示界面上输出(CID1,CID2,......,CIDQ),即按照DID出现的次数的升序方式进行呈现,DID出现的次数越少,排列越靠前。可选的,以瀑布流的方式输出(CID1,CID2,......,CIDQ),优选的,在输出的每个疾病ID向量CIDk的后面输出对应的一个或多个病例链接。
进一步地,在本发明实施例中,在S330中,还形成对应的相似度集合=(S1,S2,......,SQ),其中,Sk为疾病ID向量CIDk对应的所有的词向量集合与词向量集合W的相似度的均值或者最大值。
具体地,如果疾病ID向量CIDk对应的所有词向量集合与词向量集合W的相似度满足则将/>作为疾病ID向量CIDk对应的相似度Sk;其中,X为疾病ID向量CIDk对应的DID的数量即对应的词向量集合的数量,Sk1,Sk2,…,Skx分别为疾病ID向量CIDk对应的X个词向量集合与词向量集合W的相似度,每个相似度已经通过上述步骤S200确定。S为疾病ID向量CIDk对应的所有词向量集合与词向量集合W的相似度的均值;A为预设阈值,可根据现有技术确定。
如果疾病ID向量CIDk对应的所有词向量集合与词向量集合W的相似度满足则将max(Sk1,Sk2,…,Skx)作为疾病ID向量CIDk对应的相似度Sk;其中,X为疾病ID向量CIDk对应的词向量集合的数量,Sk1,Sk2,…,Skx分别为疾病ID向量CIDk对应的X个词向量集合与词向量集合W的相似度,S为疾病ID向量CIDk对应的所有词向量集合与词向量集合W的相似度的均值;A为预设阈值。
进一步地,在本发明实施例中,S340进一步包括:按照Sk/Nk降序的方式在客户端的显示界面上输出(CID1,CID2,......,CIDQ),即输出结果与相似度正相关,DID出现次数反相关。
步骤S310~S340的技术效果在于,对于病例普遍存在但病因罕见的情况,能够在海量病例文本中快速且准确的获取相似病因的病例文本。
综上,本发明实施例提供的相似病例文本检索系统,对每个病例记录都进行了分词处理,在进行相似病例检索时,直接利用待检索病例记录的词向量集合与病例数据库中的每个词向量集合的交集的权重和差集的权重来计算两者的相似度,相比现有技术主要采用余弦距离或者专利文献1采用的方式来获得相似度,能够节约计算量,从而能够提高检索效率,简单高效。此外,本发明中,针对病例记录的医疗术语是统一且有限的特点,对每个词的权重预先进行了设置,在检索时就能得到相应的权重,无需按照现有技术例如采用TF-IDF进行计算,能够进一步地提高检索效率和检索结果的准确性。并且,对于病例普遍存在但病因罕见的情况,能够在海量病例文本中快速且准确的获取相似病因的病例文本。
以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (5)

1.一种相似病例文本检索系统,其特征在于,包括:通信连接的服务器和客户端;
所述服务器,存储有M条病例记录,其中,第i条病例记录包括记录ID、疾病ID和词向量集合Wi=(Wi1,Wi2,......,Win),Win为词向量集合Wi中的第n个词;
所述客户端包括处理器和显示界面,所述处理器用于执行计算机程序实现如下步骤:
S100,接收输入的文本信息并将文本信息生成词向量集合W=(W1,W2,......,Wn);所述输入的文本信息为需要检索的病例记录;
S200,确定W和Wi的相似度其中,z1为词向量W和词向量Wi的交集中的词的数量,z2为词向量W和词向量Wi的差集中的词的数量,αj为词向量W和词向量Wi的交集中第j个词的权重,βj为词向量W和词向量Wi的差集中第j个词的权重,θij为词向量集合Wi中的词Wij的权重;
S300,根据步骤S200获得的相似度Si,在所述显示界面上输出对应的检索结果;
S300进一步包括:
S310,如果Si大于D,则保留对应的第i条病例记录,作为显示的检索结果;否则,将第i条病例记录舍弃;D为预设的相似度阈值;
S320,根据S310,形成相似度大于D的检索结果集合,所述检索结果集合包括R条病例记录和R个疾病ID向量(DID1,DID2,......,DIDR),R≤M;
S330,对R个疾病ID向量进行去重,形成去重后的升序排序的Q个疾病ID向量(CID1,CID2,......,CIDk,......,CIDQ)和对应的次数(N1,N2,......,NQ),其中,k的取值为1到Q,Q≤R,N1≤N2≤......≤NQ
S340,在所述客户端的显示界面上输出(CID1,CID2,......,CIDk,......,CIDQ);
在S330中,还形成对应的相似度集合(S1,S2,......,Sk,......,SQ),其中,Sk为疾病ID向量CIDk对应的所有的词向量集合与词向量集合W的相似度的均值或者最大值,Sk为(S1,S2,......,Sk,......,SQ)中的第k个相似度,CIDk为(CID1,CID2,......,CIDk,......,CIDQ)中的第k个疾病ID向量;
其中,如果疾病ID向量CIDk对应的所有词向量集合与词向量集合W的相似度满足则将/>作为疾病ID向量CIDk对应的相似度Sk;如果疾病ID向量CIDk对应的所有词向量集合与词向量集合W的相似度满足则将max(Sk1,Sk2,…,Skx)作为疾病ID向量CIDk对应的相似度Sk;其中,X为疾病ID向量CIDk对应的词向量集合的数量,Sk1,Sk2,…,Skx分别为疾病ID向量CIDk对应的X个词向量集合与词向量集合W的相似度,/>为疾病ID向量CIDk对应的所有词向量集合与词向量集合W的相似度的均值;A为预设阈值。
2.根据权利要求1所述的相似病例文本检索系统,其特征在于,θij与所述M条病例记录中词Wij出现的次数的总和反相关。
3.根据权利要求1所述的相似病例文本检索系统,其特征在于,被存储到病例记录中,并进行动态更新。
4.根据权利要求1所述的相似病例文本检索系统,其特征在于,和Wij作为索引对被存储到所述服务器中,并进行动态更新。
5.根据权利要求4所述的相似病例文本检索系统,其特征在于,如果词向量W和词向量Wi的差集中第j个词在所述索引对中能够检索到,则将相对应的权重作为βj;否则,则设置βj=0,并以特殊标记呈现第j个词。
CN202110244613.XA 2020-12-30 2020-12-30 相似病例文本检索系统 Active CN112948556B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110244613.XA CN112948556B (zh) 2020-12-30 2020-12-30 相似病例文本检索系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110244613.XA CN112948556B (zh) 2020-12-30 2020-12-30 相似病例文本检索系统
CN202011598867.3A CN112287094B (zh) 2020-12-30 2020-12-30 相似病例文本检索系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202011598867.3A Division CN112287094B (zh) 2020-12-30 2020-12-30 相似病例文本检索系统

Publications (2)

Publication Number Publication Date
CN112948556A CN112948556A (zh) 2021-06-11
CN112948556B true CN112948556B (zh) 2023-08-15

Family

ID=74426941

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110244613.XA Active CN112948556B (zh) 2020-12-30 2020-12-30 相似病例文本检索系统
CN202011598867.3A Active CN112287094B (zh) 2020-12-30 2020-12-30 相似病例文本检索系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202011598867.3A Active CN112287094B (zh) 2020-12-30 2020-12-30 相似病例文本检索系统

Country Status (1)

Country Link
CN (2) CN112948556B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466472B (zh) * 2021-02-03 2021-05-18 北京伯仲叔季科技有限公司 病例文本信息检索系统
CN115357605B (zh) * 2022-10-19 2023-02-10 湖南创亚信息科技有限公司 一种客户信息检索方法、装置、电子设备及存储介质
CN116796046B (zh) * 2023-08-29 2023-11-10 武汉大学人民医院(湖北省人民医院) 基于罕见特征的病例检索方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009087141A (ja) * 2007-10-01 2009-04-23 Oki Electric Ind Co Ltd 情報検索システム及び情報検索プログラム
CN105893597A (zh) * 2016-04-20 2016-08-24 上海家好科技有限公司 一种相似病历检索方法及系统
CN107657062A (zh) * 2017-10-25 2018-02-02 医渡云(北京)技术有限公司 相似病例检索方法及装置、存储介质、电子设备
CN107958007A (zh) * 2016-10-18 2018-04-24 浙江格林蓝德信息技术有限公司 病例信息检索方法及装置
CN109887562A (zh) * 2019-02-20 2019-06-14 广州天鹏计算机科技有限公司 电子病历的相似度确定方法、装置、设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018116727A1 (ja) * 2016-12-19 2018-06-28 富士フイルム株式会社 類似症例検索装置とその作動方法および作動プログラム、並びに類似症例検索システム
CN107818815B (zh) * 2017-10-30 2022-05-20 北京康夫子健康技术有限公司 电子病历的检索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009087141A (ja) * 2007-10-01 2009-04-23 Oki Electric Ind Co Ltd 情報検索システム及び情報検索プログラム
CN105893597A (zh) * 2016-04-20 2016-08-24 上海家好科技有限公司 一种相似病历检索方法及系统
CN107958007A (zh) * 2016-10-18 2018-04-24 浙江格林蓝德信息技术有限公司 病例信息检索方法及装置
CN107657062A (zh) * 2017-10-25 2018-02-02 医渡云(北京)技术有限公司 相似病例检索方法及装置、存储介质、电子设备
CN109887562A (zh) * 2019-02-20 2019-06-14 广州天鹏计算机科技有限公司 电子病历的相似度确定方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112287094B (zh) 2021-04-13
CN112287094A (zh) 2021-01-29
CN112948556A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112948556B (zh) 相似病例文本检索系统
CN109408665B (zh) 一种信息推荐方法及装置、存储介质
WO2022141861A1 (zh) 情感分类方法、装置、电子设备及存储介质
US7031969B2 (en) System and method for identifying relationships between database records
US20140344195A1 (en) System and method for machine learning and classifying data
CA2991230C (en) Genetic and genealogical analysis for identification of birth location and surname information
JP2003529814A (ja) データ整理のための方法及びシステム
JP2011175648A (ja) データ整理のための方法及びシステム
JPH09134363A (ja) データベース検索方法及び装置
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
US20150378962A1 (en) Approach For More Efficient Use Of Computing Resources While Calculating Cross Product Or Its Approximation For Logistic Regression On Big Data Sets
CN116805044B (zh) 一种标签的获取方法、电子设备及存储介质
CN108628822A (zh) 无语义文本的识别方法及装置
CN112328775B (zh) 病例文本信息检索系统
CN112667571A (zh) 一种生物医学文献搜索排序方法及装置
CN116705310A (zh) 围术期风险评估的数据集构建方法、装置、设备及介质
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CN114003712A (zh) 基于人工智能的文档搜索方法、装置、设备及存储介质
CN113468206A (zh) 数据维护方法、装置、服务器、介质及产品
CN114443820A (zh) 一种文本聚合方法以及文本推荐方法
CN110175220B (zh) 一种基于关键词位置结构分布的文档相似性度量方法及系统
CN104090966A (zh) 基于图模型的半结构化数据检索方法
US11636167B2 (en) Determining similarity between documents
CN114398534B (zh) 事件聚类文本检索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant