CN112507107A - 术语匹配方法、装置、终端和计算机可读存储介质 - Google Patents

术语匹配方法、装置、终端和计算机可读存储介质 Download PDF

Info

Publication number
CN112507107A
CN112507107A CN201910869178.2A CN201910869178A CN112507107A CN 112507107 A CN112507107 A CN 112507107A CN 201910869178 A CN201910869178 A CN 201910869178A CN 112507107 A CN112507107 A CN 112507107A
Authority
CN
China
Prior art keywords
term
similarity
value
matching
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910869178.2A
Other languages
English (en)
Inventor
王利
宋志朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN201910869178.2A priority Critical patent/CN112507107A/zh
Priority to PCT/CN2020/079603 priority patent/WO2021051763A1/zh
Publication of CN112507107A publication Critical patent/CN112507107A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种术语匹配方法、装置、终端、和计算机可读存储介质,其中,术语匹配方法包括:根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,加权求和相似度的值用于表示第一术语和第二术语的匹配度。通过本发明的技术方案能够实现术语系统(术语词典)之间术语的自动匹配,代替人工操作,降低错误率,有助于促进医疗数据集成、分析和再利用。

Description

术语匹配方法、装置、终端和计算机可读存储介质
技术领域
本发明涉及医疗信息化领域,具体而言,涉及一种术语匹配方法、一种术语匹配装置、一种终端和一种计算机可读存储介质。
背景技术
医学术语(下文简称术语)是医学领域里的专业用语,用来指称医学领域里的各种事物、现象、特性、关系和过程等,例如,疾病、药物、手术操作、检查检验等。这些术语是临床信息系统表达医学信息的必要成分。
国内医学术语相关标准匮乏,体系尚不完整。这些术语标准中的术语在粒度和表达上与临床实际应用场景中的术语都存在很大差异,很难直接应用于临床信息系统中。因此,我国大部分医疗机构的医学信息系统创建了自己的私有术语字典,由于医疗信息系统厂商众多,同一机构的不同系统的同类术语字典都存在差异,例如,药品术语字典之间存在差异。这些原因导致各个临床信息系统中术语名称和编码的异构现象十分严重,使得医疗信息系统之间无法互操作,医疗数据难以共享。对此,不同医疗信息系统之间的信息交换则需要将不同系统的术语字典进行映射匹配。目前,这项工作一般由人工操作,出错率比较高,成为医疗数据集成、分析和再利用的瓶颈环节。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提供一种术语匹配方法。
本发明的另一个目的在于提供一种术语匹配装置。
本发明的另一个目的在于提供一种终端。
本发明的另一个目的在于提供一种计算机可读存储介质。
为了实现上述目的,根据本发明的第一方面的技术方案,提供了一种术语匹配方法,包括:根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,加权求和相似度的值用于表示第一术语和第二术语的匹配度。
在该技术方案中,考虑到术语组成的复杂性,以多种相似度计算方法从多个维度对两个待匹配术语(第一术语和第二术语)的相似度进行计算,即通过至少两种相似度计算算法对术语之间的相似度进行计算,对应生成至少两个相似度值,并通过加权求和的方式整合多个(至少两个)相似度,以加权求和相似度来表示两个术语的匹配程度。其中,对应于多种相似度计算方法,会生成多个相似度值,而赋予权重的过程能够平衡多种相似度计算方法对最终求和相似度的影响,能够综合多种相似度计算方法的特点对术语的匹配度进行准确表示。提升了术语匹配准确度,解决了人工操作效率低,错误率高的问题,有利于促进医疗信息共享。
其中,需要特别指出的是,本申请中提出的多种相似度计算方法至少包括两种相似度计算方法,例如,若利用2种算法计算第一术语和第二术语之间的相似度,则对应生成2个相似度值,若利用3种算法计算第一术语和第二术语之间的相似度,则对应生成3个相似度值,若利用4种算法计算第一术语和第二术语之间的相似度,则对应生成4个相似度值。基于多个相似度值进行后续的加权求和计算,加权求和计算得到的加权求和相似度用于表示术语之间的匹配程度,单独一种相似度值不用于表示术语之间的匹配度。仅使用一种相似度计算方法计算术语之间的相似度并以此为依据表示术语之间匹配程度的方法不包括在本申请的技术方案中。
根据上述技术方案的术语匹配方法,可选地,在第一术语系统中指定一个术语,作为第一术语,在第二术语系统中任取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第二术语的取值,每改变一次第二术语则进行一次计算,从而生成多个加权求和相似度,其中加权求和相似度的最大值用于表示第一术语系统中指定一个术语与第二术语系统中的第二术语的匹配度。
在该技术方案中,术语系统中包含多条术语,每个术语由一串字符组成,在第一术语系统中选定一个术语(第一术语),遍历第二术语系统中的术语(第二术语),每次从第二术语系统中选取一个术语与第一术语系统中的术语进行加权求和相似度计算,通过多次选取可计算出多个加权求和相似度值,其中最大的值对应的第二术语系统中的术语即为匹配结果。提升了术语匹配准确度,建立术语匹配映射关系的效率较高,相较于人工操作明显提升了速度降低了错误率。
根据上述任一项技术方案的术语匹配方法,可选地,在第一术语系统中取一个术语,作为第一术语,在第二术语系统中取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第一术语和第二术语的取值,进行计算,从而生成多个加权求和相似度;对多个加权求和相似度进行求和运算,生成总匹配度值,总匹配度值用于表示第一术语系统和第二术语系统的匹配度。
在该技术方案中,术语系统中包含多条术语,每个术语由一串字符组成。从第一术语系统和第二术语系统中各抽取一个术语,并以多种方法求这两个术语的相似度值,进而求取加权求和相似度,经过多次抽取并进行求和相似度的计算(计算出两个术语系统中两两术语之间的加权求和相似度),能够得到多个求和相似度值,这些相似度值累加得到总匹配度值,总匹配度值能够表示第一术语系统和第二术语系统之间的匹配度。
根据上述任一项技术方案的术语匹配方法,可选地,计算过程具体还包括:在赋予权重的步骤中,通过多种权重组合对多个相似度值进行加权求和,以使每种权重组合对应生成一个总匹配度值,多种权重组合则生成多个总匹配度值;记录多个总匹配度值中的最大值,用于表示第一术语系统与第二术语系统的匹配结果。
在该技术方案中,计算两两术语之间的加权求和相似度时,利用多组不同的权重组合对同一对术语之间的多个相似度值进行加权求和计算,得到多个加权求和相似度,多对术语的加权求和相似度累加可得术语系统之间的总匹配度,则根据不同的权重组合能够求取多个总匹配度,其中,总匹配度的最大值用于表示第一术语系统与第二术语系统的匹配结果。
可选地,每组权重中各个权重相加等于1,以此种权重组合求出的加权求和相似度反映出多种相似度计算方法的加权平均相似度。
根据上述任一项技术方案的术语匹配方法,可选地,根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值,具体包括:计算出第一术语与第二术语的余弦相似度、杰卡德相似度以及哈希相似度,对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。
在该技术方案中,多种相似度计算算法包括:余弦相似度(Cosine相似度)、杰卡德相似度(Jaccard相似度)以及哈希相似度(Simhash相似度)。其中,Cosine相似度能够从词频维度计算两个短文本之间的相似程度,将术语转换(编码)为词频向量再由Cosine相似度计算算法进行计算能够获知两个术语之间的相似程度。Jaccard相似度又称Jaccard系数,Jaccard相似度计算算法用于文档数据,在二元属性情况下将两个术语归约为Jaccard系数,以获知两个术语之间的相似程度。Simhash相似度计算算法通过对术语进行编码和降维,计算降维后的术语之间的海明距离,根据海明距离计算相似程度。上述三种相似度计算算法计算方法各不相同,计算侧重点不同,综合考虑术语之间三种相似度值能够提升术语匹配准确度。
根据上述任一项技术方案的术语匹配方法,可选地,计算第一术语与第二术语的余弦相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;对第一词组列表和第二词组列表进行编码,得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量;计算第一词频向量和第二词频向量之间的余弦值,其中,余弦值即第一词频向量和第二词频向量的相似度,余弦值越大表示相似度越高。
在该技术方案中,先对术语进行分词、去停用词操作,将术语拆解为词组列表,对词组列表进行编码,获取术语的词频向量,词频向量作为余弦相似度计算算法的输入,能够计算出两两术语之间的余弦相似度。余弦相似度值与杰卡德相似度值以及哈希相似度值通过加权求和的方式综合评价术语之间的相似度,以提高术语匹配准确度。
根据上述任一项技术方案的术语匹配方法,可选地,计算第一术语与第二术语的杰卡德相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;对第一词组列表和第二词组列表进行编码,得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量;计算第一词频向量与第二词频向量的交集与并集的比值,以获取杰卡德相似度值,其中,杰卡德相似度值越大表示相似度越高。
在该技术方案中,先对术语进行分词、去停用词操作,将术语拆解为词组列表,对词组列表进行编码获取术语的向量值,根据杰卡德相似度计算算法能够评价术语之间的相似程度。杰卡德相似度值与余弦相似度值以及哈希相似度值通过加权求和的方式综合评价术语之间的相似度,以提高术语匹配准确度。
根据上述任一项技术方案的术语匹配方法,可选地,计算第一术语与第二术语的哈希相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;将第一词组列表和第二词组列表中的每个词转换为哈希值数字串,哈希值数字串乘以词的权重,得到每个词的序列串;将词组列表中的多个词的序列串相加,得到对应于第一词组列表的第一术语序列串,以及对应于第二词组列表的第二术语序列串;将第一术语序列串和第二术语序列串转换为二进制串;计算第一术语序列串和第二术语序列串的二进制串之间的海明距离;根据海明距离确定第一术语和第二术语之间的哈希相似度,其中,哈希相似度值越大表示相似度越高。哈希相似度的计算公式为:S=1/(h+1),其中,S为哈希相似度,h为海明距离。
在该技术方案中,先将术语拆解为词组列表,再对词组列表中的每个词(单词)进行hash转换(计算单词的hash值),根据单词的重要程度对每个单词进行加权计算,加权后的哈希数字串累加得到术语的序列值,对序列值进行降维后可计算出术语之间的海明距离,根据公式S=1/(h+1),获取哈希相似度值,用以表示术语之间的相似程度。哈希相似度值与余弦相似度值以及杰卡德相似度值通过加权求和的方式综合评价术语之间的相似度,以提高术语匹配准确度。
根据本发明的第二方面的技术方案,提供了一种术语匹配装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,程序被处理器执行时实现如上述任一项技术方案的术语匹配方法的步骤。该术语匹配装置包括如上述任一项技术方案的术语匹配方法的全部有益效果,在此不再赘述。
根据本发明的第三方面的技术方案,还提供了一种终端,包括:上述第二方面技术方案所述的术语匹配装置。该终端包括如上述任一项技术方案的术语匹配方法的全部有益效果,在此不再赘述。
根据本发明的第四方面的技术方案,还提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被执行时实现上述第一方面的任一项技术方案限定的术语匹配方法。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的术语匹配方法的示意流程图;
图2示出了根据本发明的一个实施例的术语匹配装置的示意框图;
图3示出了根据本发明的一个实施例的终端的示意框图;
图4示出了根据本发明的一个实施例的计算机可读存储介质的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例一
如图1所示,根据本发明的一个实施例的术语匹配方法,包括:步骤102,根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;步骤104,为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度。其中,加权求和相似度的值用于表示第一术语和第二术语的匹配度。
在该实施例中,考虑到术语组成的复杂性,以多种相似度计算方法从多个维度对两个待匹配术语(第一术语和第二术语)的相似度进行计算,并通过加权求和的方式整合多个相似度,以加权求和相似度来表示两个术语的匹配程度。其中,对应于多种相似度计算方法,会生成多个相似度值,而赋予权重的过程能够平衡多种相似度计算方法对最终求和相似度的影响,能够综合多种相似度计算方法的特点对术语的匹配度进行准确表示。提升了术语匹配准确度,解决了人工操作效率低,错误率高的问题,有利于促进医疗信息共享。
根据上述实施例的术语匹配方法,在一些应用场景下,步骤S102和步骤S104具体包括:在第一术语系统中指定一个术语,作为第一术语,在第二术语系统中任取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第二术语的取值,每改变一次第二术语则进行一次计算,从而生成多个加权求和相似度,其中加权求和相似度的最大值用于表示第一术语系统中指定一个术语与第二术语系统中的第二术语的匹配度。
在该实施例中,术语系统中包含多条术语,每个术语由一串字符组成,在第一术语系统中选定一个术语(第一术语),遍历第二术语系统中的术语(第二术语),每次从第二术语系统中选取一个术语与第一术语系统中的术语进行加权求和相似度计算,通过多次选取可计算出多个加权求和相似度值,其中最大的值对应的第二术语系统中的术语即为匹配结果。提升了术语匹配准确度,建立术语匹配映射关系的效率较高,相较于人工操作明显提升了速度降低了错误率。
根据上述实施例的术语匹配方法,在一些应用场景下,步骤S102和步骤S104具体包括:在第一术语系统中取一个术语,作为第一术语,在第二术语系统中取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第一术语和第二术语的取值,进行计算,从而生成多个加权求和相似度;对多个加权求和相似度进行求和运算,生成总匹配度值,总匹配度值用于表示第一术语系统和第二术语系统的匹配度。
在该实施例中,术语系统中包含多条术语,每个术语由一串字符组成。从第一术语系统和第二术语系统中各抽取一个术语,并以多种方法求这两个术语的相似度值,进而求取加权求和相似度,经过多次抽取并进行求和相似度的计算(计算出两个术语系统中两两术语之间的加权求和相似度),能够得到多个求和相似度值,这些相似度值累加得到总匹配度值,总匹配度值能够表示第一术语系统和第二术语系统之间的匹配度。
根据上述实施例的术语匹配方法,可选地,计算过程具体还包括:在赋予权重的步骤中,通过多种权重组合对多个相似度值进行加权求和,以使每种权重组合对应生成一个总匹配度值,多种权重组合则生成多个总匹配度值;记录多个总匹配度值中的最大值,用于表示第一术语系统与第二术语系统的匹配结果。
在该实施例中,计算两两术语之间的加权求和相似度时,利用多组不同的权重组合对同一对术语之间的多个相似度值进行加权求和计算,得到多个加权求和相似度,多对术语的加权求和相似度累加可得术语系统之间的总匹配度,则根据不同的权重组合能够求取多个总匹配度,其中,总匹配度的最大值用于表示第一术语系统与第二术语系统的匹配结果。可选地,每组权重中各个权重相加等于1,以此种权重组合求出的加权求和相似度反映出多种相似度计算方法的加权平均相似度。
根据上述实施例的术语匹配方法,可选地,根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值,具体包括:计算出第一术语与第二术语的余弦相似度、杰卡德相似度以及哈希相似度,对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。
在该实施例中,多种相似度计算算法包括:余弦相似度(Cosine相似度)、杰卡德相似度(Jaccard相似度)以及哈希相似度(Simhash相似度)。其中,Cosine相似度能够从词频维度计算两个短文本之间的相似程度,将术语转换(编码)为词频向量再由Cosine相似度计算算法进行计算能够获知两个术语之间的相似程度。Jaccard相似度又称Jaccard系数,Jaccard相似度计算算法用于文档数据,在二元属性情况下将两个术语归约为Jaccard系数,以获知两个术语之间的相似程度。Simhash相似度计算算法通过对术语进行编码和降维,计算降维后的术语之间的海明距离,根据海明距离计算相似程度。上述三种相似度计算算法计算方法各不相同,计算侧重点不同,综合考虑术语之间三种相似度值能够提升术语匹配准确度。
根据上述实施例的术语匹配方法,可选地,计算第一术语与第二术语的余弦相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;对第一词组列表和第二词组列表进行编码,得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量;计算第一词频向量和第二词频向量之间的余弦值,其中,余弦值即第一词频向量和第二词频向量的相似度,余弦值越大表示相似度越高。
在该实施例中,先对术语进行分词、去停用词操作,将术语拆解为词组列表,对词组列表进行编码(例如,oneHot编码)获取术语的词频向量,词频向量作为余弦相似度计算算法的输入,能够计算出两两术语之间的余弦相似度。
根据上述实施例的术语匹配方法,可选地,计算第一术语与第二术语的杰卡德相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;对第一词组列表和第二词组列表进行编码,得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量;计算第一词频向量与第二词频向量的交集与并集的比值,以获取杰卡德相似度值,其中,杰卡德相似度值越大表示相似度越高。
在该实施例中,先对术语进行分词、去停用词操作,将术语拆解为词组列表,对词组列表进行编码获取术语的向量值,根据杰卡德相似度计算算法能够评价术语之间的相似程度。
根据上述实施例的术语匹配方法,可选地,计算第一术语与第二术语的哈希相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;将第一词组列表和第二词组列表中的每个词转换为哈希值数字串,哈希值数字串乘以词的权重,得到每个词的序列串;将词组列表中的多个词的序列串相加,得到对应于第一词组列表的第一术语序列串,以及对应于第二词组列表的第二术语序列串;将第一术语序列串和第二术语序列串转换为二进制串;计算第一术语序列串和第二术语序列串的二进制串之间的海明距离;根据海明距离确定第一术语和第二术语之间的哈希相似度,其中,哈希相似度值越大表示相似度越高。哈希相似度的计算公式为:S=1/(h+1),其中,S为哈希相似度,h为海明距离。
在该实施例中,先将术语拆解为词组列表,再对词组列表中的每个词(单词)进行hash转换(计算单词的hash值),根据单词的重要程度对每个单词进行加权计算,加权后的哈希数字串累加得到术语的序列值,对序列值进行降维后可计算出术语之间的海明距离,根据公式S=1/(h+1),获取哈希相似度值,用以表示术语之间的相似程度。
实施例二
根据实施例一提供的术语匹配方法,对来自两个医院的的诊断术语系统,术语系统A和术语系统B,进行匹配,主要包括如下过程:
从术语系统A中取出一条术语a1“肾和输尿管结石”,从术语系统B中取出一条术语b1“肾结石伴有输尿管结石”。
对术语a1和术语b1采用相同的方法进行预处理:
首先基于分词词典进行分词,然后基于停用词词典去停用词,得到两个词组列表a1“[‘肾’,‘和’,‘输尿管’,‘结石’]”和b1“[‘肾’,‘结石’,‘伴有’,‘输尿管’,‘结石’]”。
对词组列表a1和b1进行oneHot编码,得到词频向量a1“[1,1,1,1,0]”和b1“[1,2,1,0,1]”。
分别计算词频向量a1和b1的余弦相似度
Figure BDA0002202248300000111
Jaccard相似度
Figure BDA0002202248300000112
Simhash相似度
Figure BDA0002202248300000113
其中,三种相似度计算方法都需要执行,三种计算方法得到的相似度值共同参与加权求和计算。
余弦相似度:计算词频向量a1和b1之间的余弦值,值越大相似度越高。
余弦相似度值sc 11根据如下公式进行计算:
Figure BDA0002202248300000114
Jaccard相似度:给定两个集合A,B,jaccard系数定义为A与B交集的大小与并集大小的比值,jaccard值越大说明相似度越高,其中,集合A对应于a1,集合B对应于b1
Jaccard相似度值sj 11根据如下公式进行计算:
Figure BDA0002202248300000121
Simhash相似度:
通过hash算法把每个词变成hash值数字串,比如“肾”通过hash算法计算为100101,“结石”通过hash算法计算为101011。
以每个词出现次数作为权重乘以数字串,并按照每一位数字将所有数字串相加,如果某一位数字为0,当作-1计算。例如,将词组列表a1和b1分别加权求和之后得到{12,27,-33,5,-1,7}和{23,-21,-6,11,8,14}。
将加权求和后的数字串变成01串,如果某一位数字大于0,则此位数字为1,如果某一位数字小于等于0,则此位数字为0,比如将词组列表a1和b1分别对应的01串为110101和100111。
计算海明距离h:两个数字串对应位上编码不同的位数之和,术语a1和b1的海明距离为2。
Simhash相似度值ss 11根据如下公式进行计算:
Figure BDA00022022483000001211
赋予权重:
采用三个权重
Figure BDA0002202248300000122
计算加权求和相似度s11,其中
Figure BDA0002202248300000123
Figure BDA0002202248300000124
针对术语系统A中的术语a1和术语系统B中任一术语bj,采用同样过程和权重
Figure BDA0002202248300000125
计算a1和bj加权平均相似度加权求和相似度s1j,将s1j中的最大值记为
Figure BDA0002202248300000126
比如s1j={0.456,0.538,0.324,0.647,0.489},则
Figure BDA0002202248300000127
针对术语系统A中的任一术语ai和术语系统B中任一术语bj,采用同样过程采用同样过程和权重
Figure BDA0002202248300000128
计算ai和bi加权平均相似度加权求和相似度sij
Figure BDA0002202248300000129
比如
Figure BDA00022022483000001210
计算术语系统A和术语系统B在权重
Figure BDA0002202248300000131
下的总匹配度T1
Figure BDA0002202248300000132
选择多组权重
Figure BDA0002202248300000133
计算术语系统A和术语系统B的多个总匹配度Tk,比如Tk={2.212,1.876,2.436,1.943,2.113,2.085}。
以术语系统A和术语系统B的总匹配度的最大值作为术语系统A和术语系统B之间术语匹配的结果:
第三组权重对应的总匹配度值为2.436,即k=3时术语系统A和术语系统B之间的匹配结果2.436作为最终匹配结果。
在上述步骤中,Simhash相似度值是由Simhash相似度算法计算得出,上述步骤未完全公开全部计算步骤,即本领域技术人员根据常规技术手段计算而得的Simhash相似度值均可用于参与本申请提出的加权求和相似度计算,并得到术语的匹配度。随着算法的优化,该算法部分步骤可能会有所改变,但该算法最终结果仍可应用在本申请提出的术语匹配方法中。
实施例三
如图2所示,根据本发明的一个实施例的术语匹配装置200,包括:存储器202、处理器204及存储在存储器202上并可在处理器204上运行的程序,程序被处理器204执行时实现如上述任一实施例的术语匹配方法的步骤。该术语匹配装置200包括如上述任一项实施例的术语匹配方法的全部有益效果,在此不再赘述。
实施例四
如图3所示,根据本发明的一个实施例的终端300,包括:实施例三所述的术语匹配装置200。该终端300运行时能够实现:将指定格式的图像输入到文本检测模型中,文本检测模型输出图像中的文本内容和文本内容对应的坐标位置信息;根据坐标位置信息,过滤掉文本内容中的非文字信息。该终端300包括如上述任一实施例的术语匹配方法的全部有益效果,在此不再赘述。
实施例五
如图4所示,根据本发明的一个实施例,还提供了一种计算机可读存储介质400,其上存储有计算机程序402,上述计算机程序402被执行时实现上述任一实施例限定的术语匹配方法。
其中,计算机程序402被执行时实现:根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,加权求和相似度的值用于表示第一术语和第二术语的匹配度。
根据上述技术方案的计算机程序402,可选地,在第一术语系统中指定一个术语,作为第一术语,在第二术语系统中任取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第二术语的取值,每改变一次第二术语则进行一次计算,从而生成多个加权求和相似度,其中加权求和相似度的最大值用于表示第一术语系统中指定一个术语与第二术语系统中的第二术语的匹配度。
根据上述技术方案的计算机程序402,可选地,在第一术语系统中取一个术语,作为第一术语,在第二术语系统中取一个术语,作为第二术语;根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;通过多次改变第一术语和第二术语的取值,进行计算,从而生成多个加权求和相似度;对多个加权求和相似度进行求和运算,生成总匹配度值,总匹配度值用于表示第一术语系统和第二术语系统的匹配度。
根据上述技术方案的计算机程序402,可选地,计算过程具体还包括:在赋予权重的步骤中,通过多种权重组合对多个相似度值进行加权求和,以使每种权重组合对应生成一个总匹配度值,多种权重组合则生成多个总匹配度值;记录多个总匹配度值中的最大值,用于表示第一术语系统与第二术语系统的匹配结果。
根据上述技术方案的计算机程序402,可选地,根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值,具体包括:计算出第一术语与第二术语的余弦相似度、杰卡德相似度以及哈希相似度,对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。
根据上述技术方案的计算机程序402,可选地,计算第一术语与第二术语的余弦相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;对第一词组列表和第二词组列表进行编码,得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量;计算第一词频向量和第二词频向量之间的余弦值,其中,余弦值即第一词频向量和第二词频向量的相似度,余弦值越大表示相似度越高。
根据上述技术方案的计算机程序402,可选地,计算第一术语与第二术语的杰卡德相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;对第一词组列表和第二词组列表进行编码,得到对应于第一词组列表的第一词频向量以及对应于第二词组列表的第二词频向量;计算第一词频向量与第二词频向量的交集与并集的比值,以获取杰卡德相似度值,其中,杰卡德相似度值越大表示相似度越高。
根据上述技术方案的计算机程序402,可选地,计算第一术语与第二术语的哈希相似度,具体包括:基于分词词典对第一术语和第二术语进行分词,基于停用词词典对第一术语和第二术语进行去停用词,生成对应于第一术语的第一词组列表和对应于第二术语的第二词组列表;将第一词组列表和第二词组列表中的每个词转换为哈希值数字串,哈希值数字串乘以词的权重,得到每个词的序列串;将词组列表中的多个词的序列串相加,得到对应于第一词组列表的第一术语序列串,以及对应于第二词组列表的第二术语序列串;将第一术语序列串和第二术语序列串转换为二进制串;计算第一术语序列串和第二术语序列串的二进制串之间的海明距离;根据海明距离确定第一术语和第二术语之间的哈希相似度,其中,哈希相似度值越大表示相似度越高。哈希相似度的计算公式为:S=1/(h+1),其中,S为哈希相似度,h为海明距离。
本申请通过上述实施例公开的术语匹配方法、装置、终端和计算机可读存储介质,能够实现术语系统(术语词典)之间术语的自动匹配,代替人工操作,降低错误率,有助于促进医疗数据集成、分析和再利用。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程术语匹配设备的处理器以产生一个机器,使得通过计算机或其他可编程术语匹配设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程术语匹配设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程术语匹配设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种术语匹配方法,其特征在于,包括:
根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;
为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,所述加权求和相似度的值用于表示所述第一术语和所述第二术语的匹配度。
2.根据权利要求1所述的术语匹配方法,其特征在于,具体包括:
在第一术语系统中指定一个术语,作为所述第一术语,在第二术语系统中任取一个术语,作为所述第二术语;
根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;
为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;
通过多次改变所述第二术语的取值,每改变一次第二术语则进行一次计算,从而生成多个加权求和相似度,其中加权求和相似度的最大值用于表示所述第一术语系统中指定一个术语与所述第二术语系统中的第二术语的匹配度。
3.根据权利要求1所述的术语匹配方法,其特征在于,具体包括:
在第一术语系统中取一个术语,作为所述第一术语,在第二术语系统中取一个术语,作为所述第二术语;
根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;
为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;
通过多次改变所述第一术语和所述第二术语的取值,进行计算,从而生成多个加权求和相似度;
对多个加权求和相似度进行求和运算,生成总匹配度值,所述总匹配度值用于表示所述第一术语系统和所述第二术语系统的匹配度。
4.根据权利要求3所述的术语匹配方法,其特征在于,计算过程具体还包括:
在赋予权重的步骤中,通过多种权重组合对多个相似度值进行加权求和,以使每种权重组合对应生成一个总匹配度值,多种权重组合则生成多个总匹配度值;
记录多个总匹配度值中的最大值,用于表示所述第一术语系统与所述第二术语系统的匹配结果。
5.根据权利要求1至4中任一项所述的术语匹配方法,其特征在于,所述根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值,具体包括:
计算出所述第一术语与所述第二术语的余弦相似度、杰卡德相似度以及哈希相似度,对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。
6.根据权利要求5所述的术语匹配方法,其特征在于,计算所述第一术语与所述第二术语的余弦相似度,具体包括:
基于分词词典对所述第一术语和所述第二术语进行分词,基于停用词词典对所述第一术语和所述第二术语进行去停用词,生成对应于所述第一术语的第一词组列表和对应于所述第二术语的第二词组列表;
对所述第一词组列表和所述第二词组列表进行编码,得到对应于所述第一词组列表的第一词频向量以及对应于所述第二词组列表的第二词频向量;
计算所述第一词频向量和第二词频向量之间的余弦值,其中,所述余弦值即所述第一词频向量和第二词频向量的相似度,余弦值越大表示相似度越高。
7.根据权利要求5所述的术语匹配方法,其特征在于,计算所述第一术语与所述第二术语的杰卡德相似度,具体包括:
基于分词词典对所述第一术语和所述第二术语进行分词,基于停用词词典对所述第一术语和所述第二术语进行去停用词,生成对应于所述第一术语的第一词组列表和对应于所述第二术语的第二词组列表;
对所述第一词组列表和所述第二词组列表进行编码,得到对应于所述第一词组列表的第一词频向量以及对应于所述第二词组列表的第二词频向量;
计算所述第一词频向量与所述第二词频向量的交集与并集的比值,以获取杰卡德相似度值,其中,所述杰卡德相似度值越大表示相似度越高。
8.根据权利要求5所述的术语匹配方法,其特征在于,计算所述第一术语与所述第二术语的哈希相似度,具体包括:
基于分词词典对所述第一术语和所述第二术语进行分词,基于停用词词典对所述第一术语和所述第二术语进行去停用词,生成对应于所述第一术语的第一词组列表和对应于所述第二术语的第二词组列表;
将所述第一词组列表和所述第二词组列表中的每个词转换为哈希值数字串,所述哈希值数字串乘以词的权重,得到每个词的序列串;
将词组列表中的多个词的序列串相加,得到对应于所述第一词组列表的第一术语序列串,以及对应于所述第二词组列表的第二术语序列串;
将所述第一术语序列串和所述第二术语序列串转换为二进制串;
计算所述第一术语序列串和所述第二术语序列串的二进制串之间的海明距离;
根据所述海明距离确定所述第一术语和所述第二术语之间的哈希相似度,其中,所述哈希相似度值越大表示相似度越高。
9.一种术语匹配装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时能够实现如权利要求1至8中任一项所述的术语匹配方法限定的步骤。
10.一种终端,其特征在于,包括:
如权利要求9所述的术语匹配装置。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时,实现如权利要求1至8中任一项所述的术语匹配方法的步骤。
CN201910869178.2A 2019-09-16 2019-09-16 术语匹配方法、装置、终端和计算机可读存储介质 Pending CN112507107A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910869178.2A CN112507107A (zh) 2019-09-16 2019-09-16 术语匹配方法、装置、终端和计算机可读存储介质
PCT/CN2020/079603 WO2021051763A1 (zh) 2019-09-16 2020-03-17 术语匹配方法、装置、终端和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910869178.2A CN112507107A (zh) 2019-09-16 2019-09-16 术语匹配方法、装置、终端和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112507107A true CN112507107A (zh) 2021-03-16

Family

ID=74883421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910869178.2A Pending CN112507107A (zh) 2019-09-16 2019-09-16 术语匹配方法、装置、终端和计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN112507107A (zh)
WO (1) WO2021051763A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113470829B (zh) * 2021-07-23 2024-06-28 平安科技(深圳)有限公司 用户画像生成方法、装置、设备及存储介质
CN113990513A (zh) * 2021-10-27 2022-01-28 吾征智能技术(北京)有限公司 一种基于症状特征的疾病分类的系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080294457A1 (en) * 2007-05-25 2008-11-27 Cordery Robert A Real-time medical records
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN109192258A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN109255021A (zh) * 2018-11-01 2019-01-22 北京京航计算通讯研究所 基于质量文本相似性的数据查询方法
CN109753555A (zh) * 2018-11-30 2019-05-14 平安科技(深圳)有限公司 词语匹配方法、装置、设备及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214271A (ja) * 1996-11-28 1998-08-11 Nippon Telegr & Teleph Corp <Ntt> 用語対応付け方法及び装置及び用語対応付けプログラムを格納した記憶媒体
US8463806B2 (en) * 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
CN109582961A (zh) * 2018-11-28 2019-04-05 重庆邮电大学 一种高效的机器人数据相似度计算算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080294457A1 (en) * 2007-05-25 2008-11-27 Cordery Robert A Real-time medical records
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN107977347A (zh) * 2017-12-04 2018-05-01 海南云江科技有限公司 一种题目去重方法和计算设备
CN109192258A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN109255021A (zh) * 2018-11-01 2019-01-22 北京京航计算通讯研究所 基于质量文本相似性的数据查询方法
CN109753555A (zh) * 2018-11-30 2019-05-14 平安科技(深圳)有限公司 词语匹配方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
甘辰希: ""中文临床医学术语结构化编码和快速映射方法研究与实现"", 《CNKI》 *

Also Published As

Publication number Publication date
WO2021051763A1 (zh) 2021-03-25

Similar Documents

Publication Publication Date Title
CN115222630B (zh) 图像生成方法、图像去噪模型的训练方法和设备
CN111738020B (zh) 一种翻译模型的训练方法及装置
JP6969443B2 (ja) 学習品質推定装置、方法、及びプログラム
CN110136135B (zh) 分割方法、装置、设备以及存储介质
CN111898689A (zh) 一种基于神经网络架构搜索的图像分类方法
CN109656878B (zh) 健康档案数据生成方法及装置
CN111931736A (zh) 利用非自回归模型与整合放电技术的唇语识别方法、系统
CN114913327A (zh) 一种基于改进U-Net的下肢骨骼CT图像分割算法
CN115018954A (zh) 图像生成方法、装置和电子设备
CN116738985B (zh) 医学文本的标准化处理方法及装置
CN112507107A (zh) 术语匹配方法、装置、终端和计算机可读存储介质
CN117708339A (zh) 一种基于预训练语言模型的icd自动编码方法
CN112785575B (zh) 一种图像处理的方法、装置和存储介质
CN113903420A (zh) 一种语义标签确定模型的构建方法、病历解析方法
CN111613287B (zh) 基于Glow网络的报告单编码模型生成方法、系统和设备
CN113486925A (zh) 模型训练方法、眼底图像生成方法、模型评估方法及装置
CN116188501B (zh) 基于多尺度交叉注意力的医学图像分割方法
CN117197268A (zh) 图像生成方法、装置及存储介质
CN116503608A (zh) 基于人工智能的数据蒸馏方法及相关设备
CN114529794B (zh) 一种红外与可见光图像融合方法、系统及介质
CN114638845A (zh) 一种基于双阈值的量子图像分割方法、装置及存储介质
CN111462893B (zh) 一种提供诊断依据的中文病历辅助诊断方法及系统
CN109299260B (zh) 数据分类方法、装置以及计算机可读存储介质
CN116363263B (zh) 图像编辑方法、系统、电子设备、存储介质
CN117116350B (zh) Rna测序数据的校正方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination