CN117633154A - 文本匹配方法、系统、设备及介质 - Google Patents

文本匹配方法、系统、设备及介质 Download PDF

Info

Publication number
CN117633154A
CN117633154A CN202311634262.9A CN202311634262A CN117633154A CN 117633154 A CN117633154 A CN 117633154A CN 202311634262 A CN202311634262 A CN 202311634262A CN 117633154 A CN117633154 A CN 117633154A
Authority
CN
China
Prior art keywords
text
similarity
matched
determining
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311634262.9A
Other languages
English (en)
Inventor
陈辰
赵华
鞠剑勋
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhilv Information Technology Co ltd
Original Assignee
Shanghai Zhilv Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhilv Information Technology Co ltd filed Critical Shanghai Zhilv Information Technology Co ltd
Priority to CN202311634262.9A priority Critical patent/CN117633154A/zh
Publication of CN117633154A publication Critical patent/CN117633154A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本匹配方法、系统、设备及介质。文本匹配方法包括:获取目标文本,并依次按照地区、名称和地点对目标文本进行分词,得到第一地区文本、第一名称文本以及第一地点文本;获取待匹配文本以及依次按照地区、名称和地点对待匹配文本进行分词的分词结果;确定第一子相似度、第二子相似度以及第三子相似度,并确定目标文本与待匹配文本的第一相似度,根据第一相似度确定与目标文本匹配的文本。分别基于地区、名称和地点对目标文本以及待匹配文本,基于分词结果确定与目标文本匹配的文本,提高了目标文本的匹配准确性。

Description

文本匹配方法、系统、设备及介质
技术领域
本发明涉及计算机领域,具体涉及一种文本匹配方法、系统、设备及介质。
背景技术
目前,随着大数据和信息爆炸式增长的趋势,人们需要处理和分析大量的文本数据。文本匹配是其中一项重要的任务,用于确定文本之间的相似性或相关性。然而,现有的文本匹配方法存在着一些局限性,如计算复杂度高、准确性不足等。
名词一般是表述文本中具有特定意义的实体,例如景点名称,城市名称以及专有名词等。实体名词的匹配是问答系统、信息提取、句法分析等应用领域的重要基础。在旅游的搜索中,对景点POI(PointofInterest的缩写,地点兴趣点)和门票的描述是景点名称、地址等多个互相之间相关性并不高的文本。如果采用全部文本域中检索的方式,就可能会产生大量的误召回。
针对文本域问题的解决,最终落脚点仍旧是文本匹配,通常以文本相似度计算和文本相关性计算的形式出现,在搜索引擎、智能问答、知识检索、信息流推荐等应用系统中起核心支撑作用。文本的匹配相关性是一个重要维度,因此判断两个文本的语义匹配的关系与匹配深度是一个主要的研究问题。
传统的文本匹配技术有VSM、TF-IDF、BM25、SimHash等算法,TF-IDF、BM25是词项层面的文本匹配;LSA、LDA等主题模型是语义层面的文本匹配。
基于词汇重合度的匹配算法有很大的局限性,比如“苹果”在不同的语境下表示不同的东西,可以是水果,也可以指代的是一家科技公司。对于文本匹配任务,不能只考虑字面匹配层面,还需要语义层面的匹配。而语义层面的匹配,主要解决的是语义的表示和计算问题。
当前的文本匹配方法,通常是单一内容的匹配,与文本领域密切相关。对于景点名称搜索场景,文本呈现搜索词较短,召回产品有一定的限制范围。
发明内容
本发明要解决的技术问题是为了克服现有技术中文本的匹配算法局限的缺陷,提供一种文本匹配方法、系统、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供一种文本匹配方法,包括:
获取目标文本,并依次按照地区、名称和地点对所述目标文本进行分词,得到第一地区文本、第一名称文本以及第一地点文本;
获取待匹配文本以及依次按照地区、名称和地点对所述待匹配文本进行分词的分词结果,所述分词结果包括第二地区文本、第二名称文本以及第二地点文本;
根据所述第一地区文本以及所述第二地区文本确定第一子相似度;
根据所述第一名称文本以及所述第二名称文本确定第二子相似度;
根据所述第一地点文本以及所述第二地点文本确定第三子相似度;
根据所述第一子相似度、第二子相似度以及第三子相似度确定所述目标文本与所述待匹配文本的第一相似度;
根据所述第一相似度确定与所述目标文本匹配的文本。
可选地,所述获取待匹配文本以及依次按照地区、名称和地点对所述待匹配文本进行分词的结果的步骤,具体包括:
根据所述第一地区文本和/或所述第一地点文本确定匹配词典;
从所述匹配词典中获取待匹配文本;
依次按照地区、名称和地点对所述待匹配文本进行分词,得到分词结果。
可选地,所述根据所述第一相似度确定与所述目标文本匹配的文本的步骤,具体包括:
确定所述目标文本与所述待匹配文本之间的第二相似度;
确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
根据所述第一相似度、所述第二相似度以及所述第三相似度从所述匹配词典中确定与所述目标文本匹配的文本。
可选地,所述根据所述第一子相似度、第二子相似度以及第三子相似度确定所述目标文本与所述待匹配文本的第一相似度的步骤之后,包括步骤:
若所有的所述目标文本与所述待匹配文本的所述第一相似度均低于预设相似度,则确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
根据所述第三相似度确定与所述目标文本匹配的文本。
作为本发明第二方面,本发明提供一种文本匹配系统,包括:分词模块、分词结果获取模块、相似度确定模块以及文本匹配模块;
所述分词模块用于获取目标文本,并依次按照地区、名称和地点对所述目标文本进行分词,得到第一地区文本、第一名称文本以及第一地点文本;
所述分词结果获取模块用于获取待匹配文本以及依次按照地区、名称和地点对所述待匹配文本进行分词的分词结果,所述分词结果包括第二地区文本、第二名称文本以及第二地点文本;
所述相似度确定模块用于根据所述第一地区文本以及所述第二地区文本确定第一子相似度,根据所述第一名称文本以及所述第二名称文本确定第二子相似度,根据所述第一地点文本以及所述第二地点文本确定第三子相似度;
根据所述第一子相似度、第二子相似度以及第三子相似度确定所述目标文本与所述待匹配文本的第一相似度;
所述文本匹配模块用于根据所述第一相似度确定与所述目标文本匹配的文本。
可选地,所述分词结果获取模块具体用于:
根据所述第一地区文本和/或所述第一地点文本确定匹配词典;
从所述匹配词典中获取待匹配文本;
依次按照地区、名称和地点对所述待匹配文本进行分词,得到所述分词结果。
可选地,所述相似度确定模块具体用于确定所述目标文本与所述待匹配文本之间的第二相似度,确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
所述文本匹配模块具体用于根据所述第一相似度、所述第二相似度以及所述第三相似度从所述匹配词典中确定与所述目标文本匹配的文本。
可选地,若所有的所述目标文本与所述待匹配文本的所述第一相似度均低于预设相似度,则调用所述相似度确定模块以及所述文本匹配模块;
所述相似度确定模块用于确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
所述文本匹配模块用于根据所述第三相似度确定与所述目标文本匹配的文本。
作为本发明的第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明第一方面中的文本匹配方法。
作为本发明的第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明第一方面中的文本匹配方法。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:通过将目标文本按照地区、名称和地点对所述目标文本进行结构化分词,得到第一地区文本、第一名称文本以及第一地点文本以及相获取待匹配文本的结构化分词后的分词结果,并对分词后的文本对应进行计算第一相似度,通过第一相似度确定目标文本匹配的文本,提高了目标文本的匹配准确性。
附图说明
图1为本发明实施例1中的文本匹配方法的流程示意图。
图2为本发明实施例2中的文本匹配系统的结构示意图。
图3为本发明实施例3中的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
请参见图1,本实施例提供一种文本匹配方法,包括:
S1、获取目标文本,并依次按照地区、名称和地点对目标文本进行分词,得到第一地区文本、第一名称文本以及第一地点文本;
S2、获取待匹配文本以及依次按照地区、名称和地点对待匹配文本进行分词的分词结果;
分词结果包括第二地区文本、第二名称文本以及第二地点文本;
S3、根据第一地区文本以及第二地区文本确定第一子相似度;
S4、根据第一名称文本以及第二名称文本确定第二子相似度;
S5、根据第一地点文本以及第二地点文本确定第三子相似度;
S6、根据第一子相似度、第二子相似度以及第三子相似度确定目标文本与待匹配文本的第一相似度;
S7、根据第一相似度确定与目标文本匹配的文本。
在本实施例中,用户所输入的目标文本可以是“北京故宫博物馆”。那么,就从目标文本依次按照地区、名称以及地点分为“北京”“故宫”以及“博物馆”。其中,“北京”为第一地区文本、“故宫”为第一名称文本、“博物馆”为第一地点文本。在本实施例中,按照地区还可以是按照行政区划进行分布例如按照国、省(包括直辖市以及自治区)、市、县、乡或七大地理区域(即华东、华北、华中、华南、东北、西南)等构建一个地区分词词典,只要分词的时候,文本为分词词典中的文本,就将其分词。地点也可以构建一个地点分词词典,其中可以包括“博物馆”、“风景区”、“度假区”、“酒店”、“机场”等地点文本,只要符合地点分词词典中的文本,就可以将目标文本中分词得到第一地点文本。
在本实施例中,可以将一些地点的名称也构建一个名称分词词典,包括“故宫”、“东方明珠”以及“长城”等文本。待匹配文本以及分词结果,与将目标文本进行分词的原理相同,故在此不再赘述。
在本实施例中,可以用结巴分词模型(或称为jieba分词模型)对上述文本进行分词。
在本实施例中,以目标文本为“北京故宫博物馆”为例,分为“北京”、“故宫”以及“博物馆”。此时,若待匹配文本为“北京故宫博物馆”(分词结果为“北京”、“故宫”以及“博物馆”)。计算目标文本分词结果中的“北京”和待匹配文本分词结果中的“北京”的第一子相似度,目标文本分词结果中的“故宫”和待匹配文本分词结果中的“故宫”的第二子相似度,目标文本分词结果中的“博物馆”和待匹配文本分词结果中的“博物馆”的第三子相似度,并最终根据第一子相似度、第二子相似度以及第三子相似度确定目标文本与“北京故宫博物馆”的第一相似度A1。
若待匹配文本为“沈阳故宫博物馆”(分词结果为“沈阳”、“故宫”以及“博物馆”)。计算目标文本分词结果中的“北京”和待匹配文本分词结果中的“沈阳”的第一子相似度,目标文本分词结果中的“故宫”和待匹配文本分词结果中的“故宫”的第二子相似度,目标文本分词结果中的“博物馆”和待匹配文本分词结果中的“博物馆”的第三子相似度,并最终根据第一子相似度、第二子相似度以及第三子相似度确定目标文本与“沈阳故宫博物馆”的第一相似度A2。
若待匹配文本为“上海东方明珠电视塔”(分词结果为“上海”、“东方明珠”以及“电视塔”)。计算分词结果中的“北京”和“上海”的第一子相似度,分词结果中的“故宫”和“东方明珠”的第二子相似度,分词结果中的“博物馆”和“电视塔”的第三子相似度。根据上述第一子相似度、第二子相似度以及第三子相似度,确定目标文本和“上海东方明珠电视塔”的第一相似度A3。
通过目标文本与“北京故宫博物馆”的第一相似度A1、目标文本与“沈阳故宫博物馆”的第一相似度A2以及目标文本和“上海东方明珠电视塔”的第一相似度A3,从待匹配文本中确定与目标文本所匹配的文本。
需要说明的是,预设条件可以是第一相似度大于相似度预设值的待匹配文本,或第一相似度最大的预设名次内的待匹配文本为目标文本匹配的文本。
通过本实施中的方法,通过将目标文本按照地区、名称和地点对所述目标文本进行结构化分词,得到第一地区文本、第一名称文本以及第一地点文本以及获取待匹配文本的结构化分词后的分词结果,并对分词后的文本对应进行计算第一相似度,通过第一相似度确定目标文本匹配的文本,提高了目标文本的匹配准确性。
由于是将分词结果计算对应的匹配度,每个分词的字数远小于分词前的目标词或待匹配词。相比于传统计算目标词和待匹配词的相似度,需要计算将每个字联系上下文进行推理计算,计算量庞大,但是本申请中通过将目标词或待匹配词进行分词,联系上下文的字数少,计算维度计算的复杂程度大大下降,计算速度也远大于将整个目标文本和整个待匹配文本计算匹配度的速度。
在本实施例中,第一子相似度、第二子相似度以及第三子相似度可以通过加权求和从而确定第一相似度。并且,第二子相似度的权重大于第一子相似度的权重,也大于第三子相似度的权重。由此可以凸显出目标文本和待匹配文本中名称的重要程度。
在本实施例中,如果目标词是不包括地区、名称和地点的其中至少一个,那么对应的第一地区文本、第一名称文本或第一地点文本的其中一个可以用自定义的词语代替(例如目标词中不包括地区,那么得到的第一地区文本就可以自定义为空格,且空格与所有的待匹配词的第二地区文本的匹配度都是一个固定值)。
在一个可选的实施例中,步骤S2可以包括:
根据所述第一地区文本和/或所述第一地点文本确定匹配词典;
从所述匹配词典中获取待匹配文本;
依次按照地区、名称和地点对所述待匹配文本进行分词,得到分词结果。
在本实施例中,若第一地区文本为“北京”,就可以确定包括“北京”的地点文本的待匹配文本所在的匹配词典,从匹配词典中获取匹配文本,从而减少了待匹配文本的数量,从而提升文本匹配的速度。
在一个可选的实施例中,步骤S7可以具体包括:
确定所述目标文本与所述待匹配文本之间的第二相似度;
确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
根据所述第一相似度、所述第二相似度以及所述第三相似度确定与所述目标文本匹配的文本。
在本实施例中,还可以通过目标文本整体与待匹配文本整体之间的第二相似度,以及目标文本的语义和待匹配文本的语义之间的第三相似度。
在本实施例中,第一相似度通过第一子相似度、第二子相似度以及第三子相似度确定的,是基于分词的词相似度从而确定目标词和待匹配词之间的相似度。第二相似度计算的是目标文本和待匹配词整体之间的相似度。第三相似度是目标文本和待匹配文本之间语义的相似度。通过第一相似度、第二相似度以及第三相似度,就可以从所分的词的角度、词整体的角度以及语义的角度衡量相似度,更加多维度的考虑目标词和待匹配词之间的相似度,提升了词匹配的准确性。
在本实施例中,第一相似度、第二相似度以及第三相似度都可以加权求和从而得到一个最终相似度。通过预设相似度条件,最终确定目标文本匹配的文本。并且,第一相似度的权重可以大于第二相似度的权重,也可以大于第三相似度的权重。
在一个可选的实施例中,步骤S6可以包括:
若所有的所述目标文本与所述待匹配文本的所述第一相似度均低于预设相似度,则确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
根据所述第三相似度确定与所述目标文本匹配的文本。
在本实施例中,当所有的所述目标文本与所述待匹配文本的所述第一相似度均低于预设相似度,就代表着所有的待匹配文本都无法满足匹配的要求,此时就可以通过第三相似度从而保证匹配得到和目标文本匹配的文本。
需要说明的是,在本实施例中,计算第三相似度的时候,可以选择BERT双塔型模型和Sentence-BERT交互型模型,计算相似度。使用BERT双塔型模型时,可以先将目标文本和待匹配文本进行特征提取,然后再将特征输入至BERT双塔型模。使用Sentence-BERT交互型模型时,将目标文本和待匹配文本输入Sentence-BERT交互型模型,通过Sentence-BERT交互型模型提取特征,从而计算相似度。
在本实施例中,相似度计算可以将目标文本或其分词结果以及待匹配文本或其分词结果输入至RoBERTa(Robustly optimized BERT approach,鲁棒优化BERT)模型中,利用模型的强大表征能力,通过将待匹配文本和目标文本编码成向量表示。RoBERTa模型的文本匹配方法可以考虑更丰富的语义信息和上下文关联,提高匹配的准确性和灵活性。
在本实施例中,在步骤S1之前,还可以对目标文本进行预处理,包括但是不限于将用户所输入的文本进行降噪处理、将其中的标点符号进行去除。当用户输入的文本是英文的时候,还可以将用户所输入的单词进行词干提取(即将单词的形态进行还原,例如词为进行时、过去时或者复数形态,例如单词为running,就将其还原为run)。在文本是英语的时候,还可以将文本中一些对文本没有实际含义或者不重要的常见词检测删除,例如"the"、"a"、"is"等。
在本实施例中,计算相似度的时候,计算第一子相似度的时候,是将第一地区文本以及第二地区文本按照词向量的形式输入BERT(一种神经网络)模型、Word2Vec(一种神经网络)模型、或GloVe(一种神经网络)模型。
需要说明的是,在本实施例中所计算的相似度,可以选择余弦相似度(CosineSimilarity)、编辑距离(Edit Distance)、Jaccard相似度等算法计算相似度。
在步骤S7之后,还可以包括:
在与所述目标文本匹配的文本中,将重复的文本进行去重、删除其中存在匹配错误的文本、或在匹配的文本中添加对应的地址信息。
在步骤S7之后,还可以包括:
将与所述目标文本匹配的文本进行展示,以增强用户的体验增强系统的可用性。
通过本实施例中的文本匹配方法,将目标文本按照地区、名称和地点对所述目标文本进行结构化分词,得到第一地区文本、第一名称文本以及第一地点文本以及相获取待匹配文本的结构化分词后的分词结果,并对分词后的文本对应进行计算第一相似度,通过第一相似度确定目标文本匹配的文本,提高了目标文本的匹配准确性,也提升了计算相似度的速度。
实施例2
请参见图2,本实施例提供一种文本匹配系统,包括:分词模块201、分词结果获取模块202、相似度确定模块203以及文本匹配模块204;
所述分词模块201用于获取目标文本,并依次按照地区、名称和地点对所述目标文本进行分词,得到第一地区文本、第一名称文本以及第一地点文本;
所述分词结果获取模块202用于获取待匹配文本以及依次按照地区、名称和地点对所述待匹配文本进行分词的分词结果,所述分词结果包括第二地区文本、第二名称文本以及第二地点文本;
所述相似度确定模块203用于根据所述第一地区文本以及所述第二地区文本确定第一子相似度,根据所述第一名称文本以及所述第二名称文本确定第二子相似度,根据所述第一地点文本以及所述第二地点文本确定第三子相似度;
根据所述第一子相似度、第二子相似度以及第三子相似度确定所述目标文本与所述待匹配文本的第一相似度;
所述文本匹配模块204用于根据所述第一相似度确定与所述目标文本匹配的文本。
在一个可选的实施例中,所述分词结果获取模块202具体用于:
根据所述第一地区文本和/或所述第一地点文本确定匹配词典;
从所述匹配词典中获取待匹配文本;
依次按照地区、名称和地点对所述待匹配文本进行分词,得到所述分词结果。
在一个可选的实施例中,所述相似度确定模块203具体用于确定所述目标文本与所述待匹配文本之间的第二相似度,确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
所述文本匹配模块204具体用于根据所述第一相似度、所述第二相似度以及所述第三相似度确定与所述目标文本匹配的文本。
在一个可选的实施例中,若所有的所述目标文本与所述待匹配文本的所述第一相似度均低于预设相似度,则调用所述相似度确定模块203以及所述文本匹配模块204;
所述相似度确定模块203用于确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
所述文本匹配模块204用于根据所述第三相似度确定与所述目标文本匹配的文本。
本实施例2提供的文本匹配系统用于执行实施例1的文本匹配方法,本实施例中的系统到达的效果为:通过将目标文本按照地区、名称和地点对所述目标文本进行结构化分词,得到第一地区文本、第一名称文本以及第一地点文本以及相获取待匹配文本的结构化分词后的分词结果,并对分词后的文本对应进行计算第一相似度,通过第一相似度确定目标文本匹配的文本,提高了目标文本的匹配准确性,也提升了计算相似度的速度。
实施例3
图3为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的文本匹配方法。图3显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的文本匹配方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例4
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的文本匹配方法。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使所述终端设备执行实现实施例1的文本匹配方法。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (10)

1.一种文本匹配方法,其特征在于,所述文本匹配方法包括:
获取目标文本,并依次按照地区、名称和地点对所述目标文本进行分词,得到第一地区文本、第一名称文本以及第一地点文本;
获取待匹配文本以及依次按照地区、名称和地点对所述待匹配文本进行分词的分词结果,所述分词结果包括第二地区文本、第二名称文本以及第二地点文本;
根据所述第一地区文本以及所述第二地区文本确定第一子相似度;
根据所述第一名称文本以及所述第二名称文本确定第二子相似度;
根据所述第一地点文本以及所述第二地点文本确定第三子相似度;
根据所述第一子相似度、第二子相似度以及第三子相似度确定所述目标文本与所述待匹配文本的第一相似度;
根据所述第一相似度确定与所述目标文本匹配的文本。
2.如权利要求1所述的文本匹配方法,其特征在于,所述获取待匹配文本以及依次按照地区、名称和地点对所述待匹配文本进行分词的分词结果的步骤,具体包括:
根据所述第一地区文本和/或所述第一地点文本确定匹配词典;
从所述匹配词典中获取待匹配文本;
依次按照地区、名称和地点对所述待匹配文本进行分词,得到分词结果。
3.如权利要求1所述的文本匹配方法,其特征在于,所述根据所述第一相似度确定与所述目标文本匹配的文本的步骤,具体包括:
确定所述目标文本与所述待匹配文本之间的第二相似度;
确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
根据所述第一相似度、所述第二相似度以及所述第三相似度确定与所述目标文本匹配的文本。
4.如权利要求1所述的文本匹配方法,其特征在于,所述根据所述第一子相似度、第二子相似度以及第三子相似度确定所述目标文本与所述待匹配文本的第一相似度的步骤之后,包括步骤:
若所有所述目标文本与所有的所述待匹配文本的所述第一相似度均低于预设相似度,则确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
根据所述第三相似度确定与所述目标文本匹配的文本。
5.一种文本匹配系统,其特征在于,所述文本匹配系统包括:分词模块、分词结果获取模块、相似度确定模块以及文本匹配模块;
所述分词模块用于获取目标文本,并依次按照地区、名称和地点对所述目标文本进行分词,得到第一地区文本、第一名称文本以及第一地点文本;
所述分词结果获取模块用于获取待匹配文本以及依次按照地区、名称和地点对所述待匹配文本进行分词的分词结果,所述分词结果包括第二地区文本、第二名称文本以及第二地点文本;
所述相似度确定模块用于根据所述第一地区文本以及所述第二地区文本确定第一子相似度,根据所述第一名称文本以及所述第二名称文本确定第二子相似度,根据所述第一地点文本以及所述第二地点文本确定第三子相似度;
根据所述第一子相似度、第二子相似度以及第三子相似度确定所述目标文本与所述待匹配文本的第一相似度;
所述文本匹配模块用于根据所述第一相似度确定与所述目标文本匹配的文本。
6.如权利要求5所述的文本匹配系统,其特征在于,所述分词结果获取模块具体用于:
根据所述第一地区文本和/或所述第一地点文本确定匹配词典;
从所述匹配词典中获取待匹配文本;
依次按照地区、名称和地点对所述待匹配文本进行分词,得到所述分词结果。
7.如权利要求5所述的文本匹配系统,其特征在于,所述相似度确定模块具体用于确定所述目标文本与所述待匹配文本之间的第二相似度,确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
所述文本匹配模块具体用于根据所述第一相似度、所述第二相似度以及所述第三相似度确定与所述目标文本匹配的文本。
8.如权利要求5所述的文本匹配系统,其特征在于,若所有的所述目标文本与所述待匹配文本的所述第一相似度均低于预设相似度,则调用所述相似度确定模块以及所述文本匹配模块;
所述相似度确定模块用于确定所述目标文本的语义与所述待匹配文本的语义之间的第三相似度;
所述文本匹配模块用于根据所述第三相似度确定与所述目标文本匹配的文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的文本匹配方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的文本匹配方法。
CN202311634262.9A 2023-11-30 2023-11-30 文本匹配方法、系统、设备及介质 Pending CN117633154A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311634262.9A CN117633154A (zh) 2023-11-30 2023-11-30 文本匹配方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311634262.9A CN117633154A (zh) 2023-11-30 2023-11-30 文本匹配方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN117633154A true CN117633154A (zh) 2024-03-01

Family

ID=90019601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311634262.9A Pending CN117633154A (zh) 2023-11-30 2023-11-30 文本匹配方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117633154A (zh)

Similar Documents

Publication Publication Date Title
CN107679039B (zh) 用于确定语句意图的方法和装置
CN109325108B (zh) 查询处理方法、装置、服务器及存储介质
US20100185691A1 (en) Scalable semi-structured named entity detection
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
US20220019739A1 (en) Item Recall Method and System, Electronic Device and Readable Storage Medium
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN110472013A (zh) 一种热门话题更新方法、装置和计算机存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN112818212B (zh) 语料数据采集方法、装置、计算机设备和存储介质
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN113988157A (zh) 语义检索网络训练方法、装置、电子设备及存储介质
CN116401345A (zh) 智能问答方法、装置、存储介质和设备
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN116662583B (zh) 一种文本生成方法、地点检索方法及相关装置
CN113434767A (zh) Ugc文本内容的挖掘方法、系统、设备和存储介质
CN110263083B (zh) 知识图谱的处理方法、装置、设备和介质
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN113627161B (zh) 数据处理方法及装置、存储介质、电子设备
CN111506704B (zh) 日语关键词组生成方法、装置、电子设备、存储介质
CN117633154A (zh) 文本匹配方法、系统、设备及介质
CN115062136A (zh) 基于图神经网络的事件消歧方法及其相关设备
CN114201607A (zh) 一种信息处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination