CN114218351A - 文本检索方法及装置 - Google Patents
文本检索方法及装置 Download PDFInfo
- Publication number
- CN114218351A CN114218351A CN202111424411.XA CN202111424411A CN114218351A CN 114218351 A CN114218351 A CN 114218351A CN 202111424411 A CN202111424411 A CN 202111424411A CN 114218351 A CN114218351 A CN 114218351A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- semantic features
- clause
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims description 47
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 230000006403 short-term memory Effects 0.000 claims description 10
- 230000007787 long-term memory Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 abstract description 19
- 239000002356 single layer Substances 0.000 abstract description 3
- 235000019580 granularity Nutrition 0.000 description 22
- 230000004927 fusion Effects 0.000 description 9
- 208000004998 Abdominal Pain Diseases 0.000 description 7
- 210000000988 bone and bone Anatomy 0.000 description 7
- 208000010392 Bone Fractures Diseases 0.000 description 6
- 206010012735 Diarrhoea Diseases 0.000 description 6
- 206010017076 Fracture Diseases 0.000 description 6
- 206010011224 Cough Diseases 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000027790 Rib fracture Diseases 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010062717 Increased upper airway secretion Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 208000026435 phlegm Diseases 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本检索方法及装置,其中方法包括:获取待检索文本;对所述待检索文本进行分句,获得所述待检索文本的多个分句;对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。本发明实施例通过字级语义特征和词级语义特征的结合,实现了双层粒度语义分析,避免了单层粒度语义信息的遗漏,提高了文本检索的正确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本检索方法及装置。
背景技术
目前,文本检索应用于多种领域,如可以应用于医学领域:基于电子病案的二次使用、构建临床医生知识服务系统已经成为我国循证医学与临床研究发展的迫切需求。电子病案包括临床中患者本人对自己健康状况的描述、患者的医学检查结果、对患者的病情分析和诊疗记录等信息。通过对相似电子病案文本的检索与比较可以为医生提供参考,协助医生进行临床决策和预后。
但是,现有相似文本检索方法多在对文本分词或分字后,从词在句子中或字在句子中的含义出发进行语义分析,形成一层粒度的语义信息,并对一层粒度的语义信息进行检索。但是一层粒度的语义信息存在语义信息丢失的问题,因此,现有技术中的文本检索的准确性还有待提高。
发明内容
本发明提供一种文本检索方法及装置,用以解决现有技术中文本检索准确性低的缺陷,提高文本检索的准确性。
第一方面,本发明提供一种文本检索方法,包括:获取待检索文本;对所述待检索文本进行分句,获得所述待检索文本的多个分句;对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
可选地,所述对每个所述分句进行词级语义分析,获得每个所述分句的词级语义特征,包括:对每个所述分句进行分词处理,获得词序列;对所述词序列中的词语进行分字,获得每个所述词语的字集合;对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征;基于所述字的词级语义特征,获得所述分句的词级语义特征。
可选地,所述对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征,包括:对所述字集合进行词嵌入处理,获得与所述字集合对应的第一字向量集合;将所述第一字向量集合输入至词级双向长短期记忆神经网络,获得所述词级双向长短期记忆神经网络输出的所述字集合中每个字在所述词语中的语义特征。
可选地,所述对每个所述分句进行字级语义分析,获得每个所述分句的字级语义特征,包括:对每个所述分句进行分字处理,获得字序列;对所述字序列进行词嵌入处理,获得与所述字序列对应的第二字向量集合;将所述第二字向量集合输入至字级双向长短期记忆神经网络,获得所述字级双向长短期记忆神经网络输出的每个所述分句的字级语义特征。
可选地,所述基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本,包括:对每个所述分句的字级语义特征和每个所述分句的词级语义特征进行拼接融合,获得每个所述分句的语义特征;将所有所述分句的语义特征相加,获得所述待检索文本的语义特征;基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本。
可选地,所述基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本,包括:将所述待检索文本与所述候选文本依次进行相似度计算,获得相似度计算结果;根据所述相似度计算结果,按照相似度由高到低对所述候选文本进行排序,获得目标文本列表;基于所述目标文本列表,获得所述目标文本。
第二方面,本发明还提供一种文本检索装置,包括:获取模块,用于获取待检索文本;分句模块,用于对所述待检索文本进行分句,获得所述待检索文本的多个分句;分析模块,用于对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;检索模块,用于基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述文本检索方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述文本检索方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述文本检索方法的步骤。
本发明提供的文本检索方法及装置,通过本发明实施例通过字级语义特征和词级语义特征的结合,实现了双层粒度语义分析,避免了单层粒度语义信息的遗漏,提高了文本检索的正确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本检索方法的流程示意图之一;
图2是本发明实施例提供的文本检索方法的流程示意图之二;
图3是本发明实施例提供的文本检索方法的流程示意图之三;
图4是本发明实施例提供的文本检索方法的流程示意图之四;
图5是本发明实施例提供的文本检索装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明实施例提供的文本检索方法。
参考图1,图1是本发明实施例提供的文本检索方法的流程示意图之一。本发明实施例提供的文本检索方法,包括:
步骤100,获取待检索文本;
本申请实施例可以应用在多种领域,如搜索引擎中的文本搜索或图书管理中的文献搜索等多种场景。在文件检索方法应用于医学领域时,待检索文本可以是电子病案,即电子病历(Electronic Medical Record,EMR),电子病历中包含病人在医院诊断治疗全过程的原始记录,它包含有病人身份信息、病程记录、检查检验结果、医嘱、手术记录和护理记录等。本申请实施例对具体应用领域不作限定。
步骤110,对所述待检索文本进行分句,获得所述待检索文本的多个分句;
待检索文本可以包括一句或多句分句,分句是指对待检索文本以语句为单位进行分割。如待检索文本为:“患者年龄62岁。腹痛腹泻。”可以分为分句1:“患者年龄62岁”;分句2:“腹痛腹泻”。
对所述待检索文本进行分句可以预先对待检索文本进行分句处理;也可以根据标点符号对待检索文本进行分句,如通过python的split函数完成分句任务。本发明实施例对具体分句方式不做限定。
步骤120,对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;
对于对每个所述分句进行字级语义分析,获得每个所述分句的字级语义特征的情况,是指以字为单位对分句进行语义分析。如分句2“腹痛腹泻”,可以通过“腹”“痛”“腹”“泻”四个字对句子进行理解。
对于对每个所述分句进行词级语义分析,获得每个所述分句的词级语义特征的情况,是指以词为单位对分句进行语义分析。如分句2“腹痛腹泻”,可以通过“腹痛”“腹泻”两个词对句子进行理解。
本发明实施例对每个分句的字级语义特征和词级语义特征的获取顺序不作限定。
步骤130,基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
具体地,该步骤是指基于字级和词级两层粒度的语义信息,将待检索文本与候选文本进行比较,根据比较结果获得目标文本。如首先通过一层粒度的语义信息将待检索文本与目标文本进行比较,之后再通过另一层粒度的语义信息对第一次的比较结果进行筛选;也可以通过对字级语义特征和词级语义特征进行特征融合,得到融合特征后,将待检索文本与候选文本的融合特征进行比较。目标文本可以是一个或多个文本,目标文本的数量根据设定的数量确定。
在中文语义分析中,字作为汉语基本结构单位,是中文语义分析中的最小单位,以字为单位能够获得丰富的语义信息。但是字的粒度太小,可能出现无法表达准确含义的情况,比如“鼠”可以是“老鼠”,也可以是“鼠标”。词是表达完整含义的最小单位,但是从词在句子中的含义出发进行语义分析,形成一层粒度的语义信息,会产生语义信息的遗漏。而句子的粒度太大,承载的信息量多,很难复用。
本发明实施例提供的文本检索方法,从字在句中的含义出发进行语义分析,形成一层粒度的语义信息;还从词在句子中的含义出发进行语义分析,形成新一层粒度的语义信息。将这两层粒度的语义信息结合进行文本检索。实现了对双层粒度的语义信息的语义分析,避免了单层粒度语义信息的遗漏;通过以分句为单位进行分析,实现语句信息的完整性,并且结合了以字为单位获得丰富的语义信息和以词为单位表达准确含义的优势,提高了文本检索的正确率。
可选地,所述对每个所述分句进行词级语义分析,获得每个所述分句的词级语义特征,包括:
步骤200,对每个所述分句进行分词处理,获得词序列;
分词是将分句分解为词单位。如一句分句“患者肋骨骨折”,可以分为“患者”“肋骨”“骨折”三个词,获得词序列{患者,肋骨,骨折}。
可选地,可以将分句输入至中文分词工具进行分词处理,如jieba、Hanlp、Stanford分词、ansj分词器或KCWS分词器等。
步骤210,对所述词序列中的词语进行分字,获得每个所述词语的字集合;
分字是将词语分解为字单位,如词语“患者”,可以分为“患”和“者”,获得字集合{患,者}。
可选地,可以将分句输入至中文分词工具进行分词处理,也可以采用split()函数对词语进行分割,本发明实施例对分字方式不作限定。
步骤220,对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征;
可选地,所述对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征,包括:
步骤221,对所述字集合进行词嵌入处理,获得与所述字集合对应的第一字向量集合;
词嵌入(Word Embedding)是一种将文本中的词转换成数字向量的方法。可选地,可以采用bert模型或Word2Vector模型对字集合进行词嵌入处理。
如将字集合1{患,者}输入至bert模型,获得“患”的字向量z1,“者”的字向量“z2”,得到字集合1对应的第一字向量集合1为{z1,z2};将字集合2{肋,骨}输入至bert模型,获得“肋”的字向量z3,“骨”的字向量“z4”,得到字集合2对应的第一字向量集合2为{z3,z4}。
步骤222,将所述第一字向量集合输入至词级双向长短期记忆神经网络,获得所述词级双向长短期记忆神经网络输出的所述字集合中每个字在所述词语中的语义特征。
双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM)由前向LSTM与后向LSTM组合而成,能够捕捉双向的语义特征。词级双向长短期记忆神经网络采用Bi-LSTM网络结构,用于在输入词语对应的第一字向量集合后,输出每个词语中的每个字在所述词语中的语义特征。
如将第一字向量集合1{z1,z2}输入至词级Bi-LSTM,获得词级Bi-LSTM输出的第一字向量集合1的语义特征w12={w1,w2},w1代表“患”在词语“患者”中的语义特征,w2代表“者”在词语“患者”中的语义特征,第一字向量集合1的语义特征w12代表词语“患者”的语义特征。
步骤230,基于所述字的词级语义特征,获得所述分句的词级语义特征。
将每个字的词级语义特征根据文本的文字顺序进行融合,可以得到词语所在分句的语义特征。
如分句1“患者肋骨骨折”对应词语的语义特征:“患者”的语义特征为w12={w1,w2};“肋骨”的语义特征为w34={w3,w4};“骨折”的语义特征为w56={w5,w6}。根据分句的文字顺序对分句1中的所有词语进行融合,得到分句的词级语义特征W1={w12,w34,w56}={w1,w2,w3,w4,w5,w6}。W1代表分句1以词为单位得到的词级语义特征。
本发明实施例中,通过将字在词中的语义信息结合词在句中的语义信息,获得分句的语义特征,既保留了以字为单位的语义信息的丰富性,又保留了以词为单位的语义完整性,提高了文本检索的准确率。
可选地,所述对每个所述分句进行字级语义分析,获得每个所述分句的字级语义特征,包括:
步骤300,对每个所述分句进行分字处理,获得字序列;
分字是将分句分解为字单位。如一句分句“患者肋骨骨折”,可以分为“患”“者”“肋”“骨”“骨”“折”六个字,获得字序列{患,者,肋,骨,骨,折}。
可选地,可以将分句输入至中文分词工具进行分词处理,如jieba、Hanlp、Stanford分词、ansj分词器或KCWS分词器;也可以采用split()函数对词语进行分割,本发明实施例对分字方式不作限定。
步骤310,对所述字序列进行词嵌入处理,获得与所述字序列对应的第二字向量集合;
词嵌入(Word Embedding)是一种将文本中的词转换成数字向量的方法。可选地,可以采用bert模型或Word2Vector模型对字集合进行词嵌入处理。
如将字序列{患,者,肋,骨,骨,折}输入至bert模型,可以获得“患”的字向量z1,“者”的字向量“z2”,“肋”的字向量z3,“骨”的字向量“z4”,“骨”的字向量“z5”,“折”的字向量“z6”,得到字序列对应的第二字向量集合为{z1,z2,z3,z4,z5,z6}。
步骤320,将所述第二字向量集合输入至字级双向长短期记忆神经网络,获得所述字级双向长短期记忆神经网络输出的每个所述分句的字级语义特征。
双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM)由前向LSTM与后向LSTM组合而成,能够捕捉双向的语义特征。字级双向长短期记忆神经网络采用Bi-LSTM网络结构,用于在输入分句对应的第二字向量集合后,输出每个字在所述分句中的语义特征,即每个所述分句的字级语义特征。
如将第二字向量集合{z1,z2,z3,z4,z5,z6}输入至字级Bi-LSTM,获得字级Bi-LSTM输出的第二字向量集合的语义特征:
S={s1,s2,s3,s4,s5,s6};s1代表“患”字在分句中的语义特征;s2代表“者”字在分句中的语义特征;s3代表“肋”字在分句中的语义特征;s4代表“骨”字在分句中的语义特征;s5代表“骨”字在分句中的语义特征;s6代表“折”字在分句中的语义特征;S代表分句的以字为单位得到的字级语义特征。
可选地,所述基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本,包括:
步骤400,对每个所述分句的字级语义特征和每个所述分句的词级语义特征进行拼接融合,获得每个所述分句的语义特征;
将分句的词级语义特征和分句的字级语义特征按照字对齐,并且进行拼接融合得到融合特征O,融合特征O即为每个所述分句的语义特征。
一个实施例中,分句的字级语义特征S如下所示:
式中,S表示分句的字级语义特征,s1表示分句中第一个字在分句中的语义特征;s2表示分句中第二个字在分句中的语义特征。
分句的词级语义特征W如下所示:
式中,W表示分句的词级语义特征,w1表示第一个字在第一个词中的语义特征;w2表示分句中第二个字在第一个词中的语义特征。
将分句的词级语义特征和分句的字级语义特征按照字对齐,并且进行拼接融合得到融合特征O如下所示:
式中,O表示分句的语义特征,S表示分句的字级语义特征,W表示分句的词级语义特征。
步骤410,将所有所述分句的语义特征相加,获得所述待检索文本的语义特征;
一个实施例中,待检索文本被分成分句1、分句2和分句3,并对应得到分句的语义特征O1、O2和O3,将O1、O2和O3进行矩阵相加,获得所述待检索文本的语义特征O。
步骤420,基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本。
将待检索文本的语义特征与候选文本的语义特征进行相似度比较,根据预设的目标文本数量和相似度要求,获得对应的目标文本。如预设相似度阈值,相似度超过相似度阈值时,可以确定候选文本为目标文本。
可选地,所述基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本,包括:
步骤421,将所述待检索文本与所述候选文本依次进行相似度计算,获得相似度计算结果;
可以根据预设相似度公式对待检索文本与候选文本进行相似度计算。预设相似度计算公式可以为余弦相似度公式、欧氏距离公式、曼哈顿举例公式或莱文斯坦距离公式等。通过相似度计算公式计算待检索文本和候选文本的文本距离,文本距离和文本相似度是负相关的,距离小,“离得近”,相似度高;距离大,“离得远”,相似度低。
可选地,余弦公式为:
其中,Oi表示待检索文本的语义特征,Oj表示第j个候选文本的语义特征,i为正整数,j为正整数。
步骤422,根据所述相似度计算结果,按照相似度由高到低对所述候选文本进行排序,获得目标文本列表;
一个实施例中,待检索文本与候选文本O1的相似度为0.25,待检索文本与候选文本O2的相似度为0.75,待检索文本与候选文本O3的相似度为0.95,可以获得目标文本列表如表1所示:
表1.目标文本列表
候选文本 | 相似度 |
O<sub>3</sub> | 0.95 |
O<sub>2</sub> | 0.75 |
O<sub>1</sub> | 0.25 |
步骤423,基于所述目标文本列表,获得所述目标文本。
根据预设条件,获得目标文本。如预设条件为相似度最高的文本,则目标文本为O3;预设条件为相似度大于0.5的文本,则目标文本为O2和O3。
参考图2,图2是本发明实施例提供的文本检索方法的流程示意图之二。本发明实施例提供的文本检索方法,包括:
步骤500,将电子病历分词获得词序列;
步骤510,将词序列分字获得字序列;
步骤520,将字序列进行词嵌入处理,获得字向量;
步骤530,基于词序列、字向量和词级BiLSTM获得词级语义特征;
步骤540,基于字向量和字级BiLSTM获得字级语义特征;
步骤550,将电子病历的词级语义特征和电子病历的字级语义特征进行特征融合,获得电子病历的文本语义特征;
步骤560,将电子病历的文本语义特征与候选文本的文本语义特征进行相似度计算,获得目标文本。
本发明实施例对电子病历分词和分字,对字在句子中的含义出发进行语义分析,形成一层粒度的语义信息,还从字在其所在词中的含义出发进行语义分析,形成新一层粒度的语义信息。然后将这两层粒度的语义信息结合,形成电子病历的语义特征向量。之后对电子病历的语义特征向量之间的相似度进行计算。最终,根据相似度排序完成相似病历检索,提高了病历检索的准确率。
参考图3,图3是本发明实施例提供的文本检索方法的流程示意图之三。本发明实施例提供的文本检索方法,包括:
步骤600,待检索电子病历O经过分句处理后成为句子级文本O=[o1,o2,…ov],一个分句ok(1≤k≤v)经过python第三方库jieba分词,得到词序列Q=[q1,q2,…qm],同时也直接对分句ok进行分字操作得到字序列X=[x1,x2,…xn](m≤n)。
如词序列Q为[患者,出现,咳嗽,咳痰];字序列为[患,者,出,现,咳,嗽,咳,痰]。
步骤610,对词序列Q=[q1,q2,…qm]和字序列X=[x1,x2,…xn]进行嵌套循环判断,获得词语qj和词语对应的字集合X=[x1,x2,…xi],如词语“咳嗽”对应字集合[咳,嗽]。
将字序列输入至bert模型,获得第一字向量;将字集合输入至bert模型,获得第二字向量。
将第二字向量输入至字级BiLSTM模型,利用字级BiLSTM模型捕捉字xi在词qj中的上下文信息,即获得分句ok的词级语义特征;将第一字向量输入至BiLSTM模型,捕捉字序列中每个字在其所在的句子ok中的上下文信息,即获得分句ok的句子级语义特征。
至此,对“字”进行了两级上下文特征提取,一级是基于词级BiLSTM得到词级上下文隐藏输出W=[w1,w2,…wn],一级是基于句子级BiLSTM得到句子级上下文隐藏输出S=[s1,s2,…sn]。其中,i、j、k和n为正整数,
步骤620,对于两个不同级的上下文隐藏输出,通过拼接的方式进行特征融合得到最终的句子级表示ok,公式如下:
步骤630,将整个电子病历的所有句子输出加和即得到当前电子病历的最终表示O,公式如下:
式中,ok表示第k个分句,n为分句的总数,O为电子病历的文本语义特征,n和k为正整数。
步骤640,将当前病历的最终表示O与其他病例的表示o1,o2,…,om(m代表除当前病例O之外的所有其他病历总数)进行相似度计算,相似度计算公式如下:
其中,Oi表示待检索文本的语义特征,Oj表示第j个候选文本的语义特征,i为正整数,j为正整数。
步骤650,对相似度进行排序得到最终病案检索结果。
参考图4,图4是本发明实施例提供的文本检索方法的流程示意图之四。本发明实施例提供的文本检索方法,包括:
对电子病案(EMRs)分句,获得分句[E1,E2,…En],将分句[E1,E2,…En]进行分词和分字,利用Word2Vector模型将字转化为向量形式,获得向量集合[T1,T2,…Tn]。从字在句子中的含义出发进行语义分析,形成一层粒度的语义信息;从词在句子中的含义出发进行语义分析,形成一层粒度的语义信息。然后将这两层粒度的语义信息结合,形成电子病案的语义特征向量。最后对电子病案的语义特征向量之间的相似度进行计算。
下面对本发明提供的文本检索装置进行描述,下文描述的文本检索装置与上文描述的文本检索方法可相互对应参照。
参考图5,图5是本发明实施例提供的文本检索装置的结构示意图。本发明实施例提供的文本检索装置,包括:获取模块710、分句模块720、分析模块730和检索模块740;
获取模块710,用于获取待检索文本;
分句模块720,用于对所述待检索文本进行分句,获得所述待检索文本的多个分句;
分析模块730,用于对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;
检索模块740,基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行文本检索方法,该方法包括:获取待检索文本;对所述待检索文本进行分句,获得所述待检索文本的多个分句;对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文本检索方法,该方法包括:获取待检索文本;对所述待检索文本进行分句,获得所述待检索文本的多个分句;对每个所述分句进行词级语义分析和词级语义分析,获得每个所述分句的词级语义特征和每个所述分句的词级语义特征;基于每个所述分句的词级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文本检索方法,该方法包括:获取待检索文本;对所述待检索文本进行分句,获得所述待检索文本的多个分句;对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种文本检索方法,其特征在于,包括:
获取待检索文本;
对所述待检索文本进行分句,获得所述待检索文本的多个分句;
对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;
基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
2.根据权利要求1所述的文本检索方法,其特征在于,所述对每个所述分句进行词级语义分析,获得每个所述分句的词级语义特征,包括:
对每个所述分句进行分词处理,获得词序列;
对所述词序列中的词语进行分字,获得每个所述词语的字集合;
对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征;
基于所述字的词级语义特征,获得所述分句的词级语义特征。
3.根据权利要求2所述的文本检索方法,其特征在于,所述对所述字集合进行语义分析,获得所述字集合中每个字在所述词语中的语义特征,包括:
对所述字集合进行词嵌入处理,获得与所述字集合对应的第一字向量集合;
将所述第一字向量集合输入至词级双向长短期记忆神经网络,获得所述词级双向长短期记忆神经网络输出的所述字集合中每个字在所述词语中的语义特征。
4.根据权利要求1至3任一项所述的文本检索方法,其特征在于,所述对每个所述分句进行字级语义分析,获得每个所述分句的字级语义特征,包括:
对每个所述分句进行分字处理,获得字序列;
对所述字序列进行词嵌入处理,获得与所述字序列对应的第二字向量集合;
将所述第二字向量集合输入至字级双向长短期记忆神经网络,获得所述字级双向长短期记忆神经网络输出的每个所述分句的字级语义特征。
5.根据权利要求1至3任一项所述的文本检索方法,其特征在于,所述基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本,包括:
对每个所述分句的字级语义特征和每个所述分句的词级语义特征进行拼接融合,获得每个所述分句的语义特征;
将所有所述分句的语义特征相加,获得所述待检索文本的语义特征;
基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本。
6.根据权利要求5所述的文本检索方法,其特征在于,所述基于所述待检索文本的语义特征,在所述候选文本中进行检索,获得所述目标文本,包括:
将所述待检索文本与所述候选文本依次进行相似度计算,获得相似度计算结果;
根据所述相似度计算结果,按照相似度由高到低对所述候选文本进行排序,获得目标文本列表;
基于所述目标文本列表,获得所述目标文本。
7.一种文本检索装置,其特征在于,包括:
获取模块,用于获取待检索文本;
分句模块,用于对所述待检索文本进行分句,获得所述待检索文本的多个分句;
分析模块,用于对每个所述分句进行字级语义分析和词级语义分析,获得每个所述分句的字级语义特征和每个所述分句的词级语义特征;
检索模块,用于基于每个所述分句的字级语义特征和每个所述分句的词级语义特征,在候选文本中进行检索,获得目标文本。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述文本检索方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本检索方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424411.XA CN114218351A (zh) | 2021-11-26 | 2021-11-26 | 文本检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424411.XA CN114218351A (zh) | 2021-11-26 | 2021-11-26 | 文本检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114218351A true CN114218351A (zh) | 2022-03-22 |
Family
ID=80698525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111424411.XA Pending CN114218351A (zh) | 2021-11-26 | 2021-11-26 | 文本检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218351A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132931A (zh) * | 2018-01-12 | 2018-06-08 | 北京神州泰岳软件股份有限公司 | 一种文本语义匹配的方法及装置 |
CN111859960A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 |
CN112364666A (zh) * | 2020-11-12 | 2021-02-12 | 虎博网络技术(上海)有限公司 | 文本表征方法、装置及计算机设备 |
CN113268572A (zh) * | 2020-02-14 | 2021-08-17 | 华为技术有限公司 | 问答方法及装置 |
-
2021
- 2021-11-26 CN CN202111424411.XA patent/CN114218351A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108132931A (zh) * | 2018-01-12 | 2018-06-08 | 北京神州泰岳软件股份有限公司 | 一种文本语义匹配的方法及装置 |
CN113268572A (zh) * | 2020-02-14 | 2021-08-17 | 华为技术有限公司 | 问答方法及装置 |
CN111859960A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 |
CN112364666A (zh) * | 2020-11-12 | 2021-02-12 | 虎博网络技术(上海)有限公司 | 文本表征方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Comparison of chest radiograph interpretations by artificial intelligence algorithm vs radiology residents | |
US10929420B2 (en) | Structured report data from a medical text report | |
CN111316281B (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
CN112232065B (zh) | 挖掘同义词的方法及装置 | |
CN111696640A (zh) | 自动获取病历模板的方法、装置和存储介质 | |
US11699508B2 (en) | Method and apparatus for selecting radiology reports for image labeling by modality and anatomical region of interest | |
US20230154593A1 (en) | Systems and methods for medical data processing | |
CN112530550A (zh) | 影像报告生成方法、装置、计算机设备和存储介质 | |
CN116881336A (zh) | 一种用于医学大数据的高效多模态对比深度哈希检索方法 | |
CN113722507B (zh) | 基于知识图谱的住院费用预测方法、装置及计算机设备 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
Banerjee et al. | A scalable machine learning approach for inferring probabilistic US-LI-RADS categorization | |
Xie et al. | Factreranker: Fact-guided reranker for faithful radiology report summarization | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN113658720A (zh) | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 | |
CN117454217A (zh) | 一种基于深度集成学习的抑郁情绪识别方法、装置及系统 | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN116341546A (zh) | 一种基于预训练模型的医学自然语言处理方法 | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN114218351A (zh) | 文本检索方法及装置 | |
Gong et al. | Automatic pathology annotation on medical images: A statistical machine translation framework | |
CN112115719A (zh) | 基于多头注意力机制的中医医案命名实体识别方法及系统 | |
Zubke et al. | Using openEHR archetypes for automated extraction of numerical information from clinical narratives | |
US20230070715A1 (en) | Text processing method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |