CN106528599A - 一种海量音频数据中的字符串快速模糊匹配算法 - Google Patents

一种海量音频数据中的字符串快速模糊匹配算法 Download PDF

Info

Publication number
CN106528599A
CN106528599A CN201610848974.4A CN201610848974A CN106528599A CN 106528599 A CN106528599 A CN 106528599A CN 201610848974 A CN201610848974 A CN 201610848974A CN 106528599 A CN106528599 A CN 106528599A
Authority
CN
China
Prior art keywords
text
label
character
matching
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610848974.4A
Other languages
English (en)
Other versions
CN106528599B (zh
Inventor
田学红
朱晓明
于拾全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Bean Mdt Infotech Ltd
Original Assignee
Shenzhen Bean Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Bean Mdt Infotech Ltd filed Critical Shenzhen Bean Mdt Infotech Ltd
Priority to CN201610848974.4A priority Critical patent/CN106528599B/zh
Publication of CN106528599A publication Critical patent/CN106528599A/zh
Application granted granted Critical
Publication of CN106528599B publication Critical patent/CN106528599B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种字符串的快速模糊匹配算法。本发明首先对数据库中的文本进行数据的预处理,从而获得统计模型,并通过Hash建立索引。输入文本是一个较短的字符串,本发明遍历其中所有汉字,激活有限字符全集中对应汉字的位置。将有限字符全集的激活状态映射到每一个标签上,从而达到过滤标签的目的。对过滤出来的少量标签进行与文本的匹配,用DTW算法进行近似字符串匹配。根据匹配近似度结果进行打分,并排序,返回搜索到的结果。本发明通过高效的标签过滤方法,大幅度地提升了字符串匹配算法的计算效率;同时在对输入文本进行匹配的过程中,达到模糊匹配的效果,对于模糊语言也具有很好的匹配性能。

Description

一种海量音频数据中的字符串快速模糊匹配算法
技术领域
本发明涉及一种一种海量音频数据中的字符串快速模糊匹配算法,属于自然语言处理领域。
背景技术
字符串匹配问题是在给定符号序列(称为文本)中按照一定的匹配条件,搜索给定符号序列或给定符号序列集合中元素(称为模式)出现位置的搜索问题。该问题是计算机科学的基础问题之一,被广泛的应用于各种涉及文字和符号处理的领域中,是网络安全、信息检索、计算生物学等重要领域的关键问题。随着网络安全问题凸显、海量信息检索、计算生物学高速发展,现有串匹配算法已经无法满足应用对匹配性能的需要,急需性能更高的串匹配算法出现。
在串匹配算法中,最有影响的是KMP(knuth,morris,pratt)算法和BM(boyer,moore)算法,为提高字符串模式匹配的效率,研究人员针对这两种算法提出了很多变形、改进算法。
BF(brute-force)算法是最为经典的算法,其思想是从目标串s的第一个字符起和模式串t的第一个字符进行比较,若相等,则继续逐个比较后续字符,否则从串s的第二个字符起再重新和串t进行比较。依此类推,直至串t中的每个字符依次和串s的一个连续的字符序列相等,则称模式匹配成功,此时串t的第一个字符在串s中的位置就是t在s中的位置,否则模式匹配不成功。其确定也很显然,速度慢开销大,且不支持字符串的模糊搜索。
KMP算法是D.E.Knuth、J.H.Morris和V.R.Pratt这3位学者在BF(brute-force)算法基础上提出的模式匹配改进算法。该算法中模式串从左至右移动,字符比较也从左至右进行。但是其对其下一个字符的滑动位置的选定是一大难点。BM算法是Boyer和Moore两人在KMP算法的启发下提出的,是一种快速的单模式匹配算法。BM算法进行模式匹配时,模式沿着文本从左到右移动,字符比较却从右至左进行,在每次比较失败后,使用坏字符移动表与好后缀移动表来启发模式向后移动的距离,使得在扫描正文时可以尽可能地跳过多的字符,实践证明BM算法是一种快速有效的模式匹配算法。此外神经网络问答判断算法也是模糊匹配算法中的主流算法之一,其将输入文本的每一个字符对应一个节点,输出层每一节点对应一个关键词的序号,被激活的输出层节点代表当前用户描述文本中存在的有效关键词。输出转换为二进制比特序列{Oi},每一个比特对应一个关键词;通过查表法将{Oi}快速的映射到数据序号。其主要问题是当数据库内容较多时,神经网络的训练和应用对会产生比较高的要求。
发明内容
本发明为了解决上述问题而提供的一种字符串的快速模糊匹配算法,所述字符串的快速模糊匹配算法包括以下步骤:
步骤(1)确定需要匹配的M个文本,通过自然语言处理算法提取文本中的关键词标签,序号为i,并将标签存入数据库中以供后续的字符串匹配查找,关键词标签记为Keyword(m,i)(m=1,2,3,...,M)。
步骤(2)对数据库中存储的数据进行训练学习,获得数据库数据的映射关系。
步骤(2-1)读取数据库中的标签数据,建立哈希,统计标签数据中的字符,标签个数等信息,存入哈希映射表中。
步骤(2-2)获得字符到标签字符串的映射关系D1,标签字符串到文本的映射关系D2,文本到标签数量的映射关系等D3,并存入字典中。
步骤(3)读取输入长度为L个字符的搜索文本X,描述想要查找的数据库中的文本,从输入的搜索文本中提取字符集合X(l)(l=1,2,3,...,L)。
步骤(4)遍历X(1),过滤出相关的标签。
步骤(4-1)遍历X(1),读取字符到标签字符串的映射关系D1。
步骤(4-2)通过映射关系从关键词集合Keyword(m,i)(m=1,2,3,...,M)中过滤出相关的标签,从大量标签数据中过滤出少量的待处理标签,可以大大减少对标签的循环遍历工作。
步骤(4-3)将步骤(4-2)过滤出的标签存入集合队列candidate(m,i)中。
步骤(5)对标签集合candidate(m,i)采用滑动窗口法,与输入文本X通过字符串模糊匹配算法进行匹配,再一次过滤出出不符合要求的标签,最后获得命中标签集合HitLables(m,i)。
步骤(5-1)遍历输入文本字符串,将输入文本分解为长度不等的子字符串,取长度一样的关键词,candidate(m,i)中的标签与分解文本逐个比对,判断是否有命中。
步骤(5-2)遍历标签队列集合candidate(m,i)中的所有标签,采用滑动窗口法,重复上述步骤(5-1)的过程,采用DTW字符串模糊匹配算法进行匹配,记录每次匹配的得分。
步骤(5-3)对于匹配得分满足要求的标签存入命中标签集合HitLables(m,i)中。
步骤(6)判断输入文本X中含有的否定词,分析输入文本中不希望查找的信息,删除HitLables(m,i)中对应的标签。
步骤(6-1)找出输入文本X中的否定词集合N,统计输入文本X中不希望查找的关键词信息。
步骤(6-2)遍历命中标签集合HitLables(m,i)中的标签,若含有集合N中的否定词描述的关键词,则删除命中标签集合HitLables(m,i)中对应的标签,更新命中标签集合HitLables(m,i)中的标签信息。
步骤(7)遍历命中标签集合HitLables(m,i)中的标签,通过标签字符串到文本的映射关系D2找到匹配的文本集合F。
步骤(8)对查找到的匹配文本集合F中的文本序列排序,并返回搜索结果。
步骤(8-1)统计匹配文本集合F中命中标签中的总的字符个数,命中标签概率等信息。
步骤(8-2)将步骤(8-1)中的统计信息存入队列中,并以此为依据给匹配文本集合F中的文本序列打分排序。
步骤(8-3)通过数据库文本编号快速查找到对应的文本名称,并根据步骤(8-2)中的排序结果返回推荐结果。
本发明的有益效果在于:能够支持海量音频文件的检索,通过对海量文本标签的快速过滤,获得少量候选标签,以此降低匹配计算量,提高搜索的速度。能够支持模糊字符串的匹配,适合对儿童等语言描述能力欠缺的对象提供检索服务。
附图说明
图1为本发明涉及的字符串搜索流程图;
图2为本发明涉及的汉字到字符串标签的激活哈希表(Hashmap)的建立过程;
图3为本发明涉及的模糊描述语言文本与关键词标签的匹配过程。
具体实施方式
下面结合附图对本发明作进一步阐述:
如图1所示,本发明的主要流程如下:首先需要读取数据库中的标签和文本数据,对数据库中存储的数据进行训练学习,获得字符到标签字符串的映射关系D1,标签字符串到文本的映射关系D2,文本到标签数量的映射关系D3。获取用户输入的描述文本X,长度为L个字符,从输入的搜索文本中提取字符集合X(l)(l=1,2,3,...,L)。通过字符X(l)到标签字符串的映射关系D1从关键词集合中过滤出相关的标签集合,对于过滤出的标签集合和输入文本X进行模糊匹配,并保存匹配结果得分。之后查找无用词典,否定词词典,进一步过滤掉无用的,干扰的标签。最后使用获得的标签集合,通过标签字符串到文本的映射关系D2找到匹配的文本集合F。根据匹配结果得分将文本F排序,并返回推荐结果。
本发明使用自然语言处理、机器学习领域的算法进行数据的预处理,从而可以建立一些关键信息之间映射。其主要流程可见附图2,具体如下:首先读取原始数据中的标签集合,简历哈希映射表。遍历数据标签,并读取每个标签中字符串的字符,可以通过判断该字符对应的字符串映射是否已经存在于哈希映射中来决定是否需要向表中添加映射关系,如果存在则不添加,若不存在则添加入哈希映射表中。循环遍历所有标签字符串中的所有字符,知道所有的映射都存入该字符到标签的映射表中。类似的,还可以通过遍历数据库建立标签字符串到文本的映射关系,文本到标签数量的映射关系。之后通过对哈希映射的查找可以极大地提升数据搜索的速度。
在字符串标签与输入文本匹配的过程中,需要将描述文本X分解为长度不等的子字符串,取长度一样的关键词,逐个比对,判断是否有命中。遍历所有子字符串,重复上面的比对操作。具体流程参见附图3,首先读取过滤后的标签长度,对输入文本按照标签长度进行切分,获得文本子标签。通过DTW算法,将标签与文本子标签进行模糊对比,循环遍历匹配,保存匹配最高的得分。之后读取下一个标签,与文本进行对比,重复上述步骤,直到所有的标签都匹配完。注意匹配算法中也不得不遍历所有的子字符串,因为描述文本中,可能反复出现同一个名词,那么需要累计关键词命中的次数,而不是命中一次就可以提前终止。
以上所述实施例,只是本发明的较佳实例,并非来限制本发明的实施范围,故凡依本发明申请专利范围所述的构造、特征及原理所做的等效变化或修饰,均应包括于本发明专利申请范围内。

Claims (2)

1.一种字符串的快速模糊匹配算法,其特征在于,所述字符串的快速模糊匹配算法包括以下步骤:
(1-1)确定需要匹配的M个文本,通过自然语言处理算法提取文本中的关键词标签,关键词标签序号为i,并将标签存入数据库中以供后续的字符串匹配查找,关键词标签记为Keyword(m,i)(文本编号m=1,2,3,...,M);
(1-2)对数据库中存储的数据进行训练学习,获得字符到标签字符串的映射关系D1,标签字符串到文本的映射关系D2,文本到标签数量的映射关系D3,并存入字典中;
(1-3)输入长度为L个字符的搜索文本X,描述想要查找的数据库中的文本,从输入的搜索文本中提取字符集合X(l)(字符序号l=1,2,3,...,L);
(1-4)遍历X(l),通过字符到标签字符串的映射关系D1从标签关键词集合Keyword(m,i)(m=1,2,3,...,M)中过滤出相关的候选标签关键词集合candidate(m,i);
(1-5)对候选标签关键词集合candidate(m,i)采用滑动窗口法,与输入文本X通过字符串模糊匹配算法进行匹配,对于输入匹配得分满足要求的标签存入命中标签集合HitLables(m,i);
(1-6)找出输入文本X中的否定词集合N,遍历命中标签集合HitLables(m,i)集合中的标签,若含有预先设定的否定词,则删除命中标签集合HitLables(m,i)中对应的标签;
(1-7)遍历命中标签集合HitLables(m,i)中的标签,通过标签字符串到文本的映射关系D2找到匹配的文本集合F;
(1-8)统计文本集合F中每个文本关键词字符被命中的总的次数,以此为依据给匹配文本集合F中的文本序列打分排序,并返回结果。
2.如权利要求1所述的字符串的快速模糊匹配算法,其特征在于,所述步骤(1-2)所述数据训练学习,具体步骤如下:
(2-1)建立哈希映射集合,读取原始数据库中的标签,存入标签集合中;
(2-2)按顺序读取子标签中的单个字符,判断该字符对应的标签是否在哈希映射集合中,若不存在则在字符映射中添加相应的标签;
(2-3)判断标签是否读取完毕,若读取完毕,则将哈希映射保存,若未读取完毕,则读取下一个标签,重复步骤(2-2)。
CN201610848974.4A 2016-09-23 2016-09-23 一种海量音频数据中的字符串快速模糊匹配算法 Expired - Fee Related CN106528599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610848974.4A CN106528599B (zh) 2016-09-23 2016-09-23 一种海量音频数据中的字符串快速模糊匹配算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610848974.4A CN106528599B (zh) 2016-09-23 2016-09-23 一种海量音频数据中的字符串快速模糊匹配算法

Publications (2)

Publication Number Publication Date
CN106528599A true CN106528599A (zh) 2017-03-22
CN106528599B CN106528599B (zh) 2019-05-14

Family

ID=58344335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610848974.4A Expired - Fee Related CN106528599B (zh) 2016-09-23 2016-09-23 一种海量音频数据中的字符串快速模糊匹配算法

Country Status (1)

Country Link
CN (1) CN106528599B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291929A (zh) * 2017-06-29 2017-10-24 环球智达科技(北京)有限公司 基于标签的检索方法
CN108733732A (zh) * 2017-04-25 2018-11-02 北京国双科技有限公司 一种文本检索方法及装置
CN109241271A (zh) * 2018-08-30 2019-01-18 天津做票君机器人科技有限公司 一种汇票交易机器人识别自然语言中汇票到期日的方法
CN109815196A (zh) * 2019-01-03 2019-05-28 陕西科技大学 一种基于模式串匹配的学术论文快速智能筛选方法
CN111478877A (zh) * 2019-01-24 2020-07-31 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN111581461A (zh) * 2020-06-19 2020-08-25 腾讯科技(深圳)有限公司 字符串搜索方法、装置、计算机设备及介质
CN111737513A (zh) * 2020-05-06 2020-10-02 华南理工大学 一种针对海量音乐数据的哼唱检索系统
CN111897909A (zh) * 2020-08-03 2020-11-06 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及系统
CN112131838A (zh) * 2020-09-29 2020-12-25 无锡医迈德科技有限公司 一种将非标准型号字符串映射为标准型字符串的方法
CN112215216A (zh) * 2020-09-10 2021-01-12 中国东方电气集团有限公司 一种图像识别结果的字符串模糊匹配系统及方法
CN112967717A (zh) * 2021-03-01 2021-06-15 郑州铁路职业技术学院 一种高准确性的英语语音翻译的模糊匹配训练方法
CN113065419A (zh) * 2021-03-18 2021-07-02 哈尔滨工业大学 一种基于流量高频内容的模式匹配算法及系统
CN113407693A (zh) * 2021-06-17 2021-09-17 科技日报社 一种用于全媒体审读的文本相似度比对方法及装置
CN113989530A (zh) * 2021-10-27 2022-01-28 广州致新电力科技有限公司 一种快速特征比对的方法及系统
CN114676774A (zh) * 2022-03-25 2022-06-28 北京百度网讯科技有限公司 数据处理方法、装置、设备及存储介质
CN116522164A (zh) * 2023-06-26 2023-08-01 北京百特迈科技有限公司 一种基于用户采集信息的用户匹配方法、装置及存储介质
CN117152778A (zh) * 2023-10-31 2023-12-01 安徽省立医院(中国科学技术大学附属第一医院) 一种基于ocr的医疗器械注册证识别方法、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309882A (zh) * 2012-03-13 2013-09-18 北京启明星辰信息技术股份有限公司 一种多模式下匹配字符串的方法及系统
CN104750683A (zh) * 2013-12-25 2015-07-01 中国移动通信集团公司 一种字符串匹配方法及装置
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309882A (zh) * 2012-03-13 2013-09-18 北京启明星辰信息技术股份有限公司 一种多模式下匹配字符串的方法及系统
CN104750683A (zh) * 2013-12-25 2015-07-01 中国移动通信集团公司 一种字符串匹配方法及装置
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置
CN105893349A (zh) * 2016-03-31 2016-08-24 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733732A (zh) * 2017-04-25 2018-11-02 北京国双科技有限公司 一种文本检索方法及装置
CN107291929A (zh) * 2017-06-29 2017-10-24 环球智达科技(北京)有限公司 基于标签的检索方法
CN109241271A (zh) * 2018-08-30 2019-01-18 天津做票君机器人科技有限公司 一种汇票交易机器人识别自然语言中汇票到期日的方法
CN109241271B (zh) * 2018-08-30 2021-09-17 天津做票君机器人科技有限公司 一种汇票交易机器人识别自然语言中汇票到期日的方法
CN109815196A (zh) * 2019-01-03 2019-05-28 陕西科技大学 一种基于模式串匹配的学术论文快速智能筛选方法
CN109815196B (zh) * 2019-01-03 2022-11-04 陕西科技大学 一种基于模式串匹配的学术论文快速智能筛选方法
CN111478877A (zh) * 2019-01-24 2020-07-31 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN111478877B (zh) * 2019-01-24 2022-08-02 安碁资讯股份有限公司 网域名称识别方法及网域名称识别装置
CN111737513A (zh) * 2020-05-06 2020-10-02 华南理工大学 一种针对海量音乐数据的哼唱检索系统
CN111737513B (zh) * 2020-05-06 2022-03-25 华南理工大学 一种针对海量音乐数据的哼唱检索系统
CN111581461A (zh) * 2020-06-19 2020-08-25 腾讯科技(深圳)有限公司 字符串搜索方法、装置、计算机设备及介质
CN111581461B (zh) * 2020-06-19 2023-04-25 腾讯科技(深圳)有限公司 字符串搜索方法、装置、计算机设备及介质
CN111897909A (zh) * 2020-08-03 2020-11-06 兰州理工大学 一种基于深度感知哈希的密文语音检索方法及系统
CN112215216A (zh) * 2020-09-10 2021-01-12 中国东方电气集团有限公司 一种图像识别结果的字符串模糊匹配系统及方法
CN112131838A (zh) * 2020-09-29 2020-12-25 无锡医迈德科技有限公司 一种将非标准型号字符串映射为标准型字符串的方法
CN112967717A (zh) * 2021-03-01 2021-06-15 郑州铁路职业技术学院 一种高准确性的英语语音翻译的模糊匹配训练方法
CN112967717B (zh) * 2021-03-01 2023-08-22 郑州铁路职业技术学院 一种高准确性的英语语音翻译的模糊匹配训练方法
CN113065419A (zh) * 2021-03-18 2021-07-02 哈尔滨工业大学 一种基于流量高频内容的模式匹配算法及系统
CN113065419B (zh) * 2021-03-18 2022-05-24 哈尔滨工业大学 一种基于流量高频内容的模式匹配算法及系统
CN113407693A (zh) * 2021-06-17 2021-09-17 科技日报社 一种用于全媒体审读的文本相似度比对方法及装置
CN113407693B (zh) * 2021-06-17 2022-04-26 科技日报社 一种用于全媒体审读的文本相似度比对方法及装置
CN113989530A (zh) * 2021-10-27 2022-01-28 广州致新电力科技有限公司 一种快速特征比对的方法及系统
CN114676774A (zh) * 2022-03-25 2022-06-28 北京百度网讯科技有限公司 数据处理方法、装置、设备及存储介质
CN116522164A (zh) * 2023-06-26 2023-08-01 北京百特迈科技有限公司 一种基于用户采集信息的用户匹配方法、装置及存储介质
CN116522164B (zh) * 2023-06-26 2023-09-05 北京百特迈科技有限公司 一种基于用户采集信息的用户匹配方法、装置及存储介质
CN117152778A (zh) * 2023-10-31 2023-12-01 安徽省立医院(中国科学技术大学附属第一医院) 一种基于ocr的医疗器械注册证识别方法、装置及介质
CN117152778B (zh) * 2023-10-31 2024-01-16 安徽省立医院(中国科学技术大学附属第一医院) 一种基于ocr的医疗器械注册证识别方法、装置及介质

Also Published As

Publication number Publication date
CN106528599B (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN106528599A (zh) 一种海量音频数据中的字符串快速模糊匹配算法
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN111639171B (zh) 一种知识图谱问答方法及装置
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
CN105045875B (zh) 个性化信息检索方法及装置
CN106815252A (zh) 一种搜索方法和设备
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN110298033A (zh) 关键词语料标注训练提取工具
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN108197117A (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN102637192A (zh) 一种自然语言问答的方法
CN110188197B (zh) 一种用于标注平台的主动学习方法及装置
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN112395395B (zh) 文本关键词提取方法、装置、设备及存储介质
CN107305550A (zh) 一种智能问答方法及装置
CN110879834B (zh) 一种基于循环卷积网络的观点检索系统及其观点检索方法
CN112749265B (zh) 一种基于多信息源的智能问答系统
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN115796181A (zh) 一种针对化工领域的文本关系抽取方法
CN116881436A (zh) 基于知识图谱的文献检索方法、系统、终端及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190514

Termination date: 20210923

CF01 Termination of patent right due to non-payment of annual fee