CN112784007B - 文本匹配方法及装置、存储介质和计算机设备 - Google Patents

文本匹配方法及装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN112784007B
CN112784007B CN202010687613.2A CN202010687613A CN112784007B CN 112784007 B CN112784007 B CN 112784007B CN 202010687613 A CN202010687613 A CN 202010687613A CN 112784007 B CN112784007 B CN 112784007B
Authority
CN
China
Prior art keywords
detected
texts
features
initial
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010687613.2A
Other languages
English (en)
Other versions
CN112784007A (zh
Inventor
吴鹏
王夷
李东晓
吴翔
俞楠
葛华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinyi Intelligent Technology Co ltd
Original Assignee
Shanghai Xinyi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinyi Intelligent Technology Co ltd filed Critical Shanghai Xinyi Intelligent Technology Co ltd
Priority to CN202010687613.2A priority Critical patent/CN112784007B/zh
Publication of CN112784007A publication Critical patent/CN112784007A/zh
Application granted granted Critical
Publication of CN112784007B publication Critical patent/CN112784007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

一种文本匹配方法及装置、存储介质和计算机设备,所述方法包括:获取至少两组的待检测文本;对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配。通过本发明方案补充了与检测文本相关的挖掘特征,丰富了文本匹配的特征维度,且在匹配过程中增加社会属性,从而有效提高匹配结果的准确度。

Description

文本匹配方法及装置、存储介质和计算机设备
技术领域
本发明涉及计算机技术领域,具体地涉及一种文本匹配方法及装置、存储介质和计算机设备。
背景技术
随着经济社会发展水平的不断提高,高铁地铁等交通工具的投入,在方便人员流动的同时,降低了作案成本,增加了案件复杂性从而增加破案代价。
现有的相关案件分析过程中,通常仅根据案件资源中的内容等基本特征判定是否为相关案件,其分析结果并不理想。另外,不仅对于案件的文本分析中存在这种问题,在对其他存在隐含社会关系(如经济发展情况、商圈分布情况、人口聚集程度等等)的文本进行分析时,也存在无法在分析过程中引入社会关系,导致分析结果不理想的问题。
发明内容
本发明解决的技术问题是如何提高对存在社会属性的文本的匹配准确性。
为解决上述技术问题,本发明实施例提供一种文本匹配方法,所述方法包括:获取至少两组的待检测文本;对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配。
可选的,所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度包括:将至少两组待检测文本的初始特征和挖掘特征输入特征积分模型,以使得所述特征积分模型基于不同待检测文本之间初始特征的相关性和/或挖掘特征的相关性计算至少两组待检测文本彼此之间的匹配度。
可选的,所述特征积分模型根据时空得分规则、范围匹配得分规则、精准匹配得分规则中的至少一种规则计算至少两组待检测文本彼此之间的匹配度。
可选的,所述对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征,包括:识别每一组待检测文本中的关键词,并获取该关键词对应的文本内容;基于所述关键词及其对应的文本内容获取该待检测文本的初始特征。
可选的,所述待检测文本中的内容按照预设排列规则排列,所述对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征,包括:按照所述预设排列规则的顺序提取该待检测文本中的初始特征。
可选的,所述获取所述初始特征对应的关联数据,包括:根据所述初始特征从预设信息库获取对应的关联数据。
可选的,所述初始特征和/或挖掘特征包括文本特征,所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,包括:分别获取每一组待检测文本的词向量,并计算不同待检测文本的词向量之间的余弦相似度,所述余弦相似度用于表示不同待检测文本彼此之间文本特征的匹配度。
可选的,所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度之后,还包括:当不同待检测文本之间的匹配度大于预设值时,建立该不同的待检测文本之间的关联关系。
本发明实施例还提供一种文本匹配装置,所述装置包括:待检测信息获取模块,用于获取至少两组的待检测文本;初始特征提取模块,用于对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;特征挖掘模块,用于获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;匹配模块,用于根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配。
本发明实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法的步骤。
本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供的文本匹配方法包括:获取至少两组的待检测文本;对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配。较之现有技术,本实施例的文本匹配方法,对两组待检测文本进行关联度、相似度分析时,不仅考虑了待检测文本本身包含的初始特征、还补充了与检测文本相关的挖掘特征,丰富了文本匹配的特征维度,且在匹配过程中增加社会属性,从而有效提高匹配结果的准确度。
进一步地,通过设置特征积分模型,管理对不同特征的进行相关性计算的算法,能够统一、灵活地配置文本匹配方法的计算逻辑。另外,对各次得到的匹配度进行量化得到对应分值,以对各次的匹配结果进行综合分析。
进一步地,设置预设信息库作为关联数据获取的路径,以提高关联数据获取的效率和准确性。
进一步地,将匹配的文本关联存储,以便于后续对相关的文本进行分析。
附图说明
图1是本发明提供的一实施例中的文本匹配方法的应用示意图;
图2是本发明提供的一实施例的串并案推荐方法的示意图;
图3是本发明提供的一种特征积分模型分析两个案件是否为关联案件的方法的示意图;
图4是本发明提供的一实施例中文本匹配装置的结果示意图。
具体实施方式
如背景技术所言,现有技术中在对存在社会属性的文本分析中,存在无法在分析过程中引入社会关系,导致分析结果不理想的问题。
为解决上述技术问题,本发明实施例提供一种文本匹配方法、装置、计算机设备和存储介质。该文本匹配方法包括:获取至少两组的待检测文本;对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配。
通过此方法,丰富了文本匹配的特征维度,且在匹配过程中增加社会属性,从而有效提高匹配结果的准确度。
为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
请参见图1,图1提供了本发明一实施例中的文本匹配方法的流程示意图,该方法包括:
步骤S101,获取至少两组的待检测文本。
待检测文本是针对同一主题或者类别的文本文件,待检测文本中可包含文字、图片、数表等内容。在一个具体实施例中,待检测文本为个体(如人或企业)的档案或者案件的相关资料,如卷宗(例如法院、检察院、律师事务所针对案件设立和收录的卷宗)等。两组待检测文本可以为两个人、或两家公司的档案,也可以为两个案件的相关资料。
步骤S102,对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;
其中,初始特征是对待检测文本自身包含的信息进行特征提取得到的,可基于文字排列规则、语义、图像包含的内容等信息对待检测文本进行特征提取得到初始特征。初始特征的表现形式可根据后续的分析需求设定,例如,可以为“特征名称-特征值”的形式,其中,特征名称、特征值可以按照统一的表示形式表示,以使得各组待检测文本中提取的初始特征的表示形式一致。
可选的,可通过关键词匹配规则提取待检测文本中的初始特征。具体地,获取预设若干个关键词,通过检测每组待检测文本中是否包含这些关键词,且获取这些周围预设距离范围内的文本内容,来对每组待检测文本进行初始特征的提取。进一步,可建立关键词库用以存储、管理预设的若干个关键词。
可选的,,还可以利用自然语言处理(Natural Language Processing,简称NLP)技术、图像识别技术进行内容识别,以提取初始特征。
具体地,若待检测文本为案件的资料,以“特征名称-特征值”的形式表示初始特征的示例可以为“案件号-AAA”、“作案手段-BBB”、“案发地点-CCC”等;初始特征也可以表示为表格的形式,各个特征名称对应的内容可根据需要设置,如下述表1:
表1
Figure BDA0002588148620000051
步骤S103,获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;
所述关联数据是待检测文本以外的外部数据,对于特定的初始特征,可以找到与其存在关联关系的关联数据。进一步地,该关联关系可以是社会属性(例如人口聚集程度、地理位置特征、所属商业圈等)的关联关系。例如,继续上述对案件资料进行分析的实例中,初始特征“案发地点-CCC”的关联数据可以为外部数据库、搜索引擎获取的案发地点CCC附近小区的房价、案发地点CCC周围的地铁站、公交站、商场、宾馆、洗浴中心、网吧、足疗店家等相关介绍信息(该介绍信息例如包括各个地点以及地点与案发地点CCC的最近距离等)。对关联数据进行特征提取即得到挖掘特征,挖掘特征可以以“特征名称-特征值”的形式表示,例如可以为“房价-M”、“周围地铁站-XX站”等。
可基于挖掘特征的提取需求建立关联数据获取的路径,以能够在需要获取关联数据时,直接访问对应的路径(如数据库或者网页的访问链接)进行获取。获取关联数据后,对这些关联数据进行特征提取,将其转化为统一的特征表示形式,即为挖掘特征。挖掘特征的形式可与初始特征的形式相同,也可不同。
可基于挖掘特征的提取需求建立关联数据获取的路径,以能够在需要获取关联数据时,直接访问对应的路径(如数据库或者网页的访问链接)进行获取。
可选的,可收集大量与待检测文本同种类、或者有关联的样本文本,进行特征标注和特征挖掘,得到若干的备选特征,人工标注不同样本文本之间的匹配度。通过回归训练计算各个备选特征的信息价值(Information Value,简称IV),以挑选IV值较高的特征作为初始特征或者挖掘特征。
步骤S104,根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配。
在获取至少两字待检测文本各自的初始特征和挖掘特征之后,对这些特征进行综合分析,以计算待检测文本两两之间的匹配度,匹配度的计算方法可以按照预设的计算规则设置,例如计算对应特征之间的相似度、相关度等。
上述文本匹配方法,对两组待检测文本进行关联度、相似度分析时,不仅考虑了待检测文本本身包含的初始特征、还补充了与检测文本相关的挖掘特征,丰富了匹配的考虑细节,且在匹配过程中增加社会属性,从而有效提高匹配结果的准确度。
在一个实施例中,步骤S104根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,可以包括:将至少两组待检测文本的初始特征和挖掘特征输入特征积分模型,以使得所述特征积分模型基于不同待检测文本之间初始特征的相关性和/或挖掘特征的相关性计算至少两组待检测文本彼此之间的匹配度。
可构建特征积分模型计算待检测文本之间的匹配度,以管理根据各组待检测文本的特征(包括初始特征和挖掘特征)计算匹配度的算法,形成系统化的算法管理规则。特征积分模型主要是基于不同待检测文件相对应的特征(如同一特征或同种特征)之间的相关性来考虑两组待检测文本是否存在关联关系。
特征积分模型可对多个特征得到的相关性按照不同的系数累加,以计算两组待检测文本之间匹配度。其中,各个特征的系数可根据该特征对相关性的影响强弱设置。
进一步,可将最终计算的匹配度转化为一个分值,若分值超出预设值时,则可判定两组待检测文本为相关文本。
可选的,所述特征积分模型根据时空得分规则、范围匹配得分规则、精准匹配得分规则中的至少一种规则计算至少两组待检测文本彼此之间的匹配度。
进一步,可将基于时空得分规则、范围匹配得分规则、精准匹配得分规则各自得到的匹配度转化为对应的分值。
时空得分规则是基于不同待检测文本中与时间、空间相关的特征进行相关性计算的规则。例如,在对不同案件进行分析时,可基于如作案上限时间、作案下限时间、案发地点经纬度等时空特征,对两个案件进行相关性分析;进一步,可优先空间特征。
范围得分规则是基于不同待检测文本中特征值的取值范围进行相关性计算的规则。例如,不同待检测文本的同一特征值差值在一定范围内记作1分,超出范围则记作0分。
精准得分规则是是基于不同待检测文本中特征值的取值进行精确的相关性计算的规则,如,特征值相等则记作1分,不相等则记作0分。
进一步,可将根据时空得分规则、范围得分规则、精准得分规则各自得到的匹配度按照各个特征值的权重计算最终的匹配度得分。
本实施例中,通过设置特征积分模型,管理对不同特征的进行相关性计算的算法,能够统一、灵活地配置文本匹配方法的计算逻辑。另外,对各次得到的匹配度进行量化得到对应分值,以对各次的匹配结果进行综合分析。
在一个实施例中,基于不同的文本,可设置不同的初始特征提取规则。对于图1中的步骤S102对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征,可以包括:识别每一组待检测文本中的关键词,并获取该关键词对应的文本内容;基于所述关键词及其对应的文本内容获取该待检测文本的初始特征。
对于上述以“特征名称-特征值”表示的初始特征,可通过预设关键词的方式识别初始特征中的特征名称,并获取该关键词一定文本距离内的词组作为该特征名称对于的特征值。
可选的,步骤S102还可以包括:按照所述预设排列规则的顺序提取该待检测文本中的初始特征。
若待检测文本具有一定的文本排列规则,也可根据该文本排列规则获取特征名称对应的特征值。例如,案件的档案通常本身即为格式文档,可基于文档格式设置初始特征的提取规则。
在一个实施例中,所述获取所述初始特征对应的关联数据,包括:根据所述初始特征从预设信息库获取对应的关联数据。
可借助现有的存在关联数据的数据库如消费类程序(大众点评等)、地图类程序(百度地图等)的数据库作为预设信息库;也可根据关联数据的获取需求另外建立更为精准的预设信息库。
本实施例,设置预设信息库作为关联数据获取的路径,以提高关联数据获取的效率和准确性。
在一个实施例中,所述初始特征和/或挖掘特征包括文本特征,请继续参见图1,图1中步骤S104所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,包括:分别获取每一组待检测文本的词向量,并计算不同待检测文本的词向量之间的余弦相似度,所述余弦相似度用于表示不同待检测文本彼此之间文本特征的匹配度。
通过成熟算法TF-IDF计算词向量,并通过余弦向量计算词向量之间的相似性。其中,TF-IDF为词频和逆文本频率(term frequency–inverse document frequency)的简称,是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
在一个实施例中,所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度之后,还包括:当不同待检测文本之间的匹配度大于预设值时,建立该不同的待检测文本之间的关联关系。
设置用于判断不同检测文本之间的是否匹配的预设值,若匹配度大于该预设值时,则匹配;反之则不匹配。可选的,若在计算得到匹配度之后进行了分值的转化,则该预设值即为预设的分值或分值范围。
另外,将匹配的文本关联存储,以便于后续对相关的文本进行分析。
在一个具体的应用实例中,可将上述的文本匹配方法用于分析两个案件之间的关联性,以进行串并案推荐。请参见图2,图2为本发明提供的一实施例的一种串并案推荐方法的示意图。
在进行案件进行匹配时,可获取初始案件的案件主体详情和案件线索详情共同作为该案件的待检测文本。其中,案件主体详情可包括案件号、作案手段、作案工具、作案时间、案发地点等。案件线索详情可包括:线索号、线索描述、线索提供者等。
在案件特征提取中,先进行初始特征的提取,再补充挖掘特征。由于案件的特征,可进一步将初始特征分为基本特征(如案件类别、作案工具、作案特点、作案手段、案件状态等)、时空特征(如作案上限时间、作案下限时间、案发地点经纬度等)和文本特征(如现场勘查描述、案件详情、线索详情等)。获取挖掘特征时,可根据作案地点抓取小区房价水平、地铁站个数以及最近地铁站距离、公交站个数及最近公交站台距离、宾馆数及最近宾馆距离、洗浴网吧足疗个数及最近距离、以及超市个数、商场个数等一系列细化特征。
将各个特征输入特征积分模型,模型经过案件匹配后输出相关案件(也即串并案件)。其中,该特征积分模型可基于时空得分规则、范围匹配得分规则、精准匹配得分规则对初始案件的各个特征与案件库内的其他案件进行特征匹配,计算初始案件与其他案件的匹配度的分值,将分值高于预设值的案件作为推荐的串并案输出。
具体地,特征积分模型分析两个案件(案件a,案件b)是否为关联案件的方法如图3所示,包括:
步骤S301,分别获取案件a和案件b的特征,并赋予初始得分;初始得分为积分的初始值,可以为0或者其他预设值。
步骤S302,获取第一个特征;
步骤S303,根据该特征的匹配度计算规则以及对应的特征权重,计算该特征对应的得分,并对得分累加;
步骤S304,继续获取下一个特征;继续执行步骤S303中的操作,根据特征值匹配,计算得分并累加。
步骤S305,处理完所有特征后,当最终的得分大于预设值,则输出为关联案件。若最终的得分小于预设值,则确定案件a和案件b并非关联案件。
可选的,串并案件输出结果为图表(如表2)等可视化形式,后续应用可进行此表进行可视化或者其他应用。
表2
案件号 串并案件号 得分(score) 分析时间
本实施例中,在已有的常见案件特征基础之上,引进了挖掘特征,丰富了特征维度。同时,通过满足多种特征字段化的差异的特征积分模型,使串并案的推荐更合理更科学。
应该理解的是,虽然图1至图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1至图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本发明实施例还提供一种文本匹配装置,请参见图4,图4提供了一实施例中文本匹配装置的结构示意图,所述装置包括:
待检测信息获取模块401,用于获取至少两组的待检测文本;
初始特征提取模块402,用于对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;
特征挖掘模块403,用于获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;
匹配模块404,用于根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配。
在一个实施例中,所述匹配模块404,还可以用于将至少两组待检测文本的初始特征和挖掘特征输入特征积分模型,以使得所述特征积分模型基于不同待检测文本之间初始特征的相关性和/或挖掘特征的相关性计算至少两组待检测文本彼此之间的匹配度。
可选的,所述特征积分模型根据时空得分规则、范围匹配得分规则、精准匹配得分规则中的至少一种规则计算至少两组待检测文本彼此之间的匹配度。
在一个实施例中,所述初始特征提取模块402可以包括:
关键词识别单元,用于识别每一组待检测文本中的关键词,并获取该关键词对应的文本内容;
初始特征提取单元,用于基于所述关键词及其对应的文本内容获取该待检测文本的初始特征。
在一个实施例中,所述待检测文本中的内容按照预设排列规则排列,所述初始特征提取模块402,还可以用于按照所述预设排列规则的顺序提取该待检测文本中的初始特征。
在一个实施例中,所述特征挖掘模块40,还可以用于根据所述初始特征从预设信息库获取对应的关联数据。
在一个实施例中,所述初始特征和/或挖掘特征包括文本特征,所述匹配模块404,还可以包括:
文本匹配度计算单元,用于分别获取每一组待检测文本的词向量,并计算不同待检测文本的词向量之间的余弦相似度,所述余弦相似度用于表示不同待检测文本彼此之间文本特征的匹配度。
在一个实施例中,所述文本匹配装置还可以包括:
文本关联模块,用于当不同待检测文本之间的匹配度大于预设值时,建立该不同的待检测文本之间的关联关系。
关于该文本匹配的原理、具体实现和有益效果请参照前文及图1至图3示出的关于文本匹配方法的相关描述,此处不再赘述。
本发明实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述文本匹配方法的步骤。所述计算机设备包括但不限于手机、计算机、平板电脑等终端设备。
具体地,在本发明实施例中,所述处理器可以为中央处理单元(centralprocessing unit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,简称DSP)、专用集成电路(application specificintegrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称ROM)、可编程只读存储器(programmable ROM,简称PROM)、可擦除可编程只读存储器(erasable PROM,简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称RAM)可用,例如静态随机存取存储器(staticRAM,简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,简称DR RAM)。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (10)

1.一种文本匹配方法,其特征在于,所述方法包括:
获取至少两组的待检测文本;
对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;
根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配;
其中,所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度包括:
将至少两组待检测文本的初始特征和挖掘特征输入特征积分模型,以使得所述特征积分模型基于不同待检测文本之间初始特征的相关性和/或挖掘特征的相关性计算至少两组待检测文本彼此之间的匹配度。
2.根据权利要求1所述的方法,其特征在于,所述特征积分模型根据时空得分规则、范围匹配得分规则、精准匹配得分规则中的至少一种规则计算至少两组待检测文本彼此之间的匹配度。
3.根据权利要求1所述的方法,其特征在于,所述对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征,包括:
识别每一组待检测文本中的关键词,并获取该关键词对应的文本内容;
基于所述关键词及其对应的文本内容获取该待检测文本的初始特征。
4.根据权利要求3所述的方法,其特征在于,所述待检测文本中的内容按照预设排列规则排列,所述对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征,包括:
按照所述预设排列规则的顺序提取该待检测文本中的初始特征。
5.根据权利要求1所述的方法,其特征在于,所述获取所述初始特征对应的关联数据,包括:
根据所述初始特征从预设信息库获取对应的关联数据。
6.根据权利要求1所述的方法,其特征在于,所述初始特征和/或挖掘特征包括文本特征,所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,包括:
分别获取每一组待检测文本的词向量,并计算不同待检测文本的词向量之间的余弦相似度,所述余弦相似度用于表示不同待检测文本彼此之间文本特征的匹配度。
7.根据权利要求1至6任一所述的方法,其特征在于,所述根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度之后,还包括:
当不同待检测文本之间的匹配度大于预设值时,建立该不同的待检测文本之间的关联关系。
8.一种文本匹配装置,其特征在于,所述装置包括:
待检测信息获取模块,用于获取至少两组的待检测文本;
初始特征提取模块,用于对每一组待检测文本进行文本解析,以提取该待检测文本中的初始特征;
特征挖掘模块,用于获取所述初始特征对应的关联数据,并提取所述关联数据中的特征作为挖掘特征;
匹配模块,用于根据初始特征和挖掘特征确定所述至少两组待检测文本彼此之间的匹配度,以对各组待检测文本进行匹配;
其中,所述匹配模块,还用于将至少两组待检测文本的初始特征和挖掘特征输入特征积分模型,以使得所述特征积分模型基于不同待检测文本之间初始特征的相关性和/或挖掘特征的相关性计算至少两组待检测文本彼此之间的匹配度。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至7任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至7任一项所述方法的步骤。
CN202010687613.2A 2020-07-16 2020-07-16 文本匹配方法及装置、存储介质和计算机设备 Active CN112784007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010687613.2A CN112784007B (zh) 2020-07-16 2020-07-16 文本匹配方法及装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010687613.2A CN112784007B (zh) 2020-07-16 2020-07-16 文本匹配方法及装置、存储介质和计算机设备

Publications (2)

Publication Number Publication Date
CN112784007A CN112784007A (zh) 2021-05-11
CN112784007B true CN112784007B (zh) 2023-02-21

Family

ID=75750146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010687613.2A Active CN112784007B (zh) 2020-07-16 2020-07-16 文本匹配方法及装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN112784007B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN109063108A (zh) * 2018-07-27 2018-12-21 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109213859A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 一种文本检测方法、装置及系统
CN109614478A (zh) * 2018-12-18 2019-04-12 北京中科闻歌科技股份有限公司 词向量模型的构建方法、关键词匹配方法及装置
CN109918653A (zh) * 2019-02-21 2019-06-21 腾讯科技(深圳)有限公司 确定文本数据的关联话题及模型的训练方法、装置和设备
CN110110045A (zh) * 2019-04-26 2019-08-09 腾讯科技(深圳)有限公司 一种检索相似文本的方法、装置以及存储介质
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411583A (zh) * 2010-09-20 2012-04-11 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN109213859A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 一种文本检测方法、装置及系统
CN109063108A (zh) * 2018-07-27 2018-12-21 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109614478A (zh) * 2018-12-18 2019-04-12 北京中科闻歌科技股份有限公司 词向量模型的构建方法、关键词匹配方法及装置
CN109918653A (zh) * 2019-02-21 2019-06-21 腾讯科技(深圳)有限公司 确定文本数据的关联话题及模型的训练方法、装置和设备
CN110110045A (zh) * 2019-04-26 2019-08-09 腾讯科技(深圳)有限公司 一种检索相似文本的方法、装置以及存储介质
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN111104488A (zh) * 2019-12-30 2020-05-05 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质

Also Published As

Publication number Publication date
CN112784007A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
US11520812B2 (en) Method, apparatus, device and medium for determining text relevance
US10831769B2 (en) Search method and device for asking type query based on deep question and answer
CN107679039B (zh) 用于确定语句意图的方法和装置
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
Khusro et al. On methods and tools of table detection, extraction and annotation in PDF documents
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN106708929B (zh) 视频节目的搜索方法和装置
CN112559684A (zh) 一种关键词提取及信息检索方法
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
Das et al. A CV parser model using entity extraction process and big data tools
CN114266443A (zh) 数据评估方法和装置、电子设备、存储介质
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN112966053A (zh) 一种基于知识图谱的海洋领域专家库构建方法及装置
CN106570196B (zh) 视频节目的搜索方法和装置
US20170235835A1 (en) Information identification and extraction
Henderi et al. Unsupervised Learning Methods for Topic Extraction and Modeling in Large-scale Text Corpora using LSA and LDA
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法
KR20190081622A (ko) 유사성 판단 방법 및 그 장치
Poornima et al. Multi-modal features and correlation incorporated Naive Bayes classifier for a semantic-enriched lecture video retrieval system
CN112784007B (zh) 文本匹配方法及装置、存储介质和计算机设备
Cristani et al. A multimodal approach to exploit similarity in documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 200331 room e176, 1f, 406 Gulang Road, Putuo District, Shanghai

Applicant after: Shanghai Xinyi Intelligent Technology Co.,Ltd.

Address before: 200434 10th floor, 1388 Shuidian Road, Hongkou District, Shanghai

Applicant before: Shanghai Xinyi Intelligent Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant