CN112988977A - 基于近似词的模糊匹配媒资内容库检索方法 - Google Patents
基于近似词的模糊匹配媒资内容库检索方法 Download PDFInfo
- Publication number
- CN112988977A CN112988977A CN202110445489.3A CN202110445489A CN112988977A CN 112988977 A CN112988977 A CN 112988977A CN 202110445489 A CN202110445489 A CN 202110445489A CN 112988977 A CN112988977 A CN 112988977A
- Authority
- CN
- China
- Prior art keywords
- word
- retrieval
- approximate
- words
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了基于近似词的模糊匹配媒资内容库检索方法,包括步骤:S1,获取新闻文本语料,构建用于训练FastText模型的学习样本;S2,基于所构建的学习样本进行FastText模型的训练,获得词向量模型;S3,利用训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型,利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组,基于该扩展目标检索词组在内容库中进行相关素材检索,然后将检索结果返回给用户等;本发明基于召回的所有近似词进行扩展检索的方式将完全匹配检索转换成模糊匹配检索,能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果。
Description
技术领域
本发明涉及新闻媒资检索领域,更为具体的,涉及基于近似词的模糊匹配媒资内容库检索方法。
背景技术
广播电视行业拥有非常丰富的数据资源。据相关调查数据显示,在美国17个行业所拥有的数据总量排名中,传媒业占据第三位。近年来,随着我国广播电视行业的快速发展,媒体内容数据更是呈爆炸式增长,与此同时也给媒体资源的再利用带来了挑战。在汇聚了台内、外媒、用户生产数据等的内容库中,高效地完成检索对于有效获取相关素材,再推送到节目生产环节、提高节目生产率,丰富节目生产资源等具有非常重要的意义。
另一方面,为了提升编目质量和工作效率,媒体数据资料管理从传统的人工编目逐步转换到依托智能化管理平台的自动编目。通过实体识别、人脸识别、场景分类、关键词识别等相关AI技术,媒体内容素材实现了智能化标引。用户可以在内容库中检索需要的标签,如人名、场景、地点、分类类别、关键词等搜索相关媒体素材然后打点出库。但是同多数搜索工具一样,检索结果依赖于用户输入内容的准确性。完全匹配检索方式下,用户可能无法获得想要的素材,也可能错过其他相关素材。
为了解决上述问题,本发明提出一种基于近似词的模糊匹配媒资内容库检索方法。
发明内容
本发明的目的在于克服现有技术的不足,提供基于近似词的模糊匹配媒资内容库检索方法,将完全匹配检索转换成模糊匹配检索,能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果等。
本发明的目的是通过以下方案实现的:
一种基于近似词的模糊匹配媒资内容库检索方法,包括步骤:
S1,获取新闻文本语料,构建用于训练FastText词向量模型的学习样本;
S2,基于步骤S1所构建的学习样本进行FastText词向量模型的训练,获得词向量模型;
S3,利用步骤S2中训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型,利用所述近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组,基于该扩展目标检索词组在内容库中进行相关素材检索,然后将检索结果返回给用户。
在获取新闻文本语料时,可以利用爬虫等工具。
进一步地,在步骤S1中,包括步骤:
在步骤S1中,包括步骤:
S11,对获取的新闻文本语料进行清洗和分句;
S12,基于LTP工具以及词库对步骤S11中清洗和分句后获得的文本句进行分词和去停用词处理;
S13,按FastText词向量模型输入要求,整理经过步骤S12处理后的文本数据,构成最终的学习样本。
在构建用于训练FastText词向量模型的学习样本时,首先要对获取的新闻文本语料进行清洗和分句。其中,除常规清洗手段外,还应进行一些特殊处理,如去“同期声”、“导语”、“正文”等词。在文本清洗分句后,可以再基于现有LTP工具(Wanxiang Che, ZhenghuaLi, Ting Liu. LTP: A Chinese Language Technology Platform. In Proceedings ofthe Coling 2010:Demonstrations. 2010.08, pp13-16, Beijing, China.)以及各种词库(如分词词库、停用词库)对获得的文本句进行分词和去停用词等处理,最后,按FastText模型输入要求整理处理好的文本数据构成最终的学习样本。
进一步地,在步骤S2中,进行FastText词向量模型的训练时,词向量维度设置为300。
进一步地,在步骤S11中,还对获取的新闻文本语料进行去同期声、去导语、去正文处理。
进一步地,在步骤S3中,包括如下步骤:
S31,加载基础词库,并将加载的基础词库作为近似词检索候选词库;基础词库来源主要是媒资内容库中素材的智能化标引标签,包括实体内
容、关键词内容、场景、景别等,这样可以保证经过近似检索模型扩展以后的检索输入词的
准确性;
S32,加载训练好的FastText词向量模型,对步骤S31中近似词检索候选词库中每个词进行向量化,便于后续相似度计算;在近似词检索阶段词向量非
常重要,相对于Glove/word2vec等词向量模型,FastText模型自带了OOV(out-of-
vocabulary)的处理,所以采用FastText词向量模型可以实现对任何词的词向量转化,使用
FastText词向量模型更有益于词的向量化以及后续的相似度计算。
S34,获取用户在内容库中的检索文本,对其进行分词处理,将获得的分词结果和原始检索文本合并作为目标检索词组;这样可以使得下一步近似词召回时获得能表达
用户实际搜索意图的词的同时还能获得更多的与之相关检索词。比如用户输入词为“比特
币交易”,经过上述处理以后获得“比特币交易”、“比特币”、“交易”;“比特币交易”的近似词
可能含“货币交易”,“比特币”的近似词可能含“区块链”,而“交易”的近似词可能含“买卖”。
S35,对步骤S34中目标检索词组中的每一个词,首先利用
FastText词向量模型获得其向量,然后利用Hnswlib索引在近似词检索候选词库中召回与之最相似的个近似词以及这个近似词与的距离,过滤距离
大于设定阈值的词后最终构成扩展目标检索词组;经过这
样对可能不大准确的用户搜索内容词的近似扩展,可以从近似词检索候选词库中也即媒资内容库中素材的智能化标引标签中获得潜在的更能代表用于
搜索意图的检索词;
在该实施例的技术方案中,考虑到检索结果依赖于用户输入内容的准确性,但是由于中文文本的丰富性和灵活性,用户在检索素材时的输入可能并不能完全匹配上媒体内容素材的智能化标引标签,如此在完全匹配检索方式下,用户可能无法获得想要的素材,也可能错过其他相关素材。因此,在该实施例技术方案中主要通过构建并利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组,基于该扩展目标检索词组在内容库中进行相关素材检索,来使得检索匹配的结果更加广泛以便更好地覆盖用户搜索意图。
进一步地,在步骤S33中,所述相似度计算方法包括夹角余弦函数。
本发明的有益效果包括:
本发明通过构建近似词检索模型,对用户检索媒资内容库时的检索内容进行近似词召回,基于召回的所有近似词进行扩展检索的方式将完全匹配检索转换成模糊匹配检索,能够在更好地覆盖用户的检索意图的情况下获得更广泛且与用户想要的结果相关的素材检索结果,在融合媒体发展时代,可以进一步为媒体资源的再利用做出一定的贡献。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法步骤流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
实施例1
如图1所示,一种基于近似词的模糊匹配媒资内容库检索方法,包括步骤:
S1,获取新闻文本语料,构建用于训练FastText词向量模型的学习样本;
S2,基于步骤S1所构建的学习样本进行FastText词向量模型的训练,获得词向量模型;
S3,利用步骤S2中训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型,利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组,基于该扩展目标检索词组在内容库中进行相关素材检索,然后将检索结果返回给用户。
在获取新闻文本语料时,可以利用爬虫等工具。
实施例2
在实施例1的基础上,更进一步地对实施例1中的步骤S1执行如下步骤:
S11,对获取的新闻文本语料进行清洗和分句;
S12,基于LTP工具以及词库对步骤S11中清洗和分句后获得的文本句进行分词和去停用词处理;
S13,按FastText词向量模型输入要求,整理经过步骤S12处理后的文本数据,从而构成最终的学习样本。
在该实施例的技术方案中,在构建用于训练FastText词向量模型的学习样本时,首先要对获取的新闻文本语料进行清洗和分句。其中,除常规清洗手段外,还应进行一些特殊处理,如去“同期声”、“导语”、“正文”等词。在文本清洗分句后,再基于现有LTP工具(Wanxiang Che, Zhenghua Li, Ting Liu. LTP: A Chinese Language TechnologyPlatform. In Proceedings of the Coling 2010:Demonstrations. 2010.08, pp13-16,Beijing, China.)以及各种词库(如分词词库、停用词库)对获得的文本句进行分词和去停用词等处理,最后,按FastText模型输入要求,将处理后的文本数据用来构成最终的学习样本。
实施例3
在实施例1的基础上,更进一步地对实施例1中步骤S3执行如下步骤:
S31,加载基础词库,将加载的基础词库作为近似词检索候选词库
;基础词库来源主要是媒资内容库中素材的智能化标引标签,包括实体内容、关键词内容、
场景、景别等,这样可以保证经过近似检索模型扩展以后的检索输入词的准确性;
S32,加载训练好的FastText词向量模型,对步骤S31中近似词检索候选词库中每个词进行向量化,便于后续相似度计算;在近似词检索阶段词向量非
常重要,相对于Glove/word2vec等词向量模型,FastText词向量模型自带了OOV(out-of-
vocabulary)的处理,所以采用FastText词向量模型可以实现对任何词的词向量转化,使用
FastText词向量模型更有益于词的向量化以及后续的相似度计算。
S34,获取用户在内容库中的检索文本,对其进行分词处理,将获得的分词结果和原始检索文本合并作为目标检索词组;这样可以使得下一步近似词召回时获得能表达
用户实际搜索意图的词的同时还能获得更多的与之相关检索词。比如用户输入词为“比特
币交易”,经过上述处理以后获得“比特币交易”、“比特币”、“交易”;“比特币交易”的近似词
可能含“货币交易”,“比特币”的近似词可能含“区块链”,而“交易”的近似词可能含“买卖”。
S35,对步骤S34中目标检索词组中的每一个词,首先利用
FastText词向量模型获得其向量,然后利用Hnswlib索引在近似词检索候选词库中召回与之最相似的个近似词以及这个近似词与的距离,过滤距离
大于设定阈值的词后最终构成扩展目标检索词组;经过这
样对可能不大准确的用户搜索内容词的近似扩展,可以从近似词检索候选词库中也即媒资内容库中素材的智能化标引标签中获得潜在的更能代表用于
搜索意图的检索词;S36,基于步骤S35中获得的扩展目标检索词组在内容库中进行扩展检索;获得用户检索意图相关且更广泛
的素材并返回给用户。
在该实施例的技术方案中,考虑到检索结果依赖于用户输入内容的准确性,但是由于中文文本的丰富性和灵活性,用户在检索素材时的输入可能并不能完全匹配上媒体内容素材的智能化标引标签,如此在完全匹配检索方式下,用户可能无法获得想要的素材,也可能错过其他相关素材。因此,在该实施例技术方案中主要通过构建并利用近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组,基于该扩展目标检索词组在内容库中进行相关素材检索,来使得检索匹配的结果更加广泛以便更好地覆盖用户搜索意图。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。
Claims (6)
1.一种基于近似词的模糊匹配媒资内容库检索方法,其特征在于,包括步骤:
S1,获取新闻文本语料,构建用于训练FastText词向量模型的学习样本;
S2,基于步骤S1所构建的学习样本进行FastText词向量模型的训练,获得词向量模型;
S3,利用步骤S2中训练好的词向量模型和近似最近邻方法Hnswlib构建近似词检索模型,利用所述近似词检索模型获取输入的检索词的相似词作为扩展目标检索词组,基于该扩展目标检索词组在内容库中进行相关素材检索,然后将检索结果返回给用户。
2.根据权利要求1所述的基于近似词的模糊匹配媒资内容库检索方法,其特征在于,在步骤S1中,包括步骤:
S11,对获取的新闻文本语料进行清洗和分句;
S12,基于LTP工具以及词库对步骤S11中清洗和分句后获得的文本句进行分词和去停用词处理;
S13,按FastText词向量模型输入要求,整理经过步骤S12处理后的文本数据,构成最终的学习样本。
3.根据权利要求1所述的基于近似词的模糊匹配媒资内容库检索方法,其特征在于,在步骤S2中,进行FastText词向量模型的训练时,词向量维度设置为300。
4.根据权利要求2所述的基于近似词的模糊匹配媒资内容库检索方法,其特征在于,在步骤S11中,还对获取的新闻文本语料进行去同期声、去导语、去正文处理。
5.根据权利要求1~4任一所述的基于近似词的模糊匹配媒资内容库检索方法,其特征在于,在步骤S3中,包括如下步骤:
S35,对步骤S34中目标检索词组中的每一个词,首先利用FastText词
向量模型获得其向量,然后利用Hnswlib索引在近似词检索候选词库中
召回与之最相似的个近似词以及这个近似词与的距离,过滤距离大于设定阈值的词
后最终构成扩展目标检索词组;
6.根据权利要求5所述的基于近似词的模糊匹配媒资内容库检索方法,其特征在于,在步骤S33中,所述相似度计算方法包括夹角余弦函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110445489.3A CN112988977A (zh) | 2021-04-25 | 2021-04-25 | 基于近似词的模糊匹配媒资内容库检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110445489.3A CN112988977A (zh) | 2021-04-25 | 2021-04-25 | 基于近似词的模糊匹配媒资内容库检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112988977A true CN112988977A (zh) | 2021-06-18 |
Family
ID=76340033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110445489.3A Withdrawn CN112988977A (zh) | 2021-04-25 | 2021-04-25 | 基于近似词的模糊匹配媒资内容库检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112988977A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055623A (zh) * | 2016-05-26 | 2016-10-26 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种跨语言推荐方法和系统 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN107247745A (zh) * | 2017-05-23 | 2017-10-13 | 华中师范大学 | 一种基于伪相关反馈模型的信息检索方法及系统 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN110069599A (zh) * | 2019-03-13 | 2019-07-30 | 平安城市建设科技(深圳)有限公司 | 基于近似词的检索方法、装置、设备及可读存储介质 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
-
2021
- 2021-04-25 CN CN202110445489.3A patent/CN112988977A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055623A (zh) * | 2016-05-26 | 2016-10-26 | 《中国学术期刊(光盘版)》电子杂志社有限公司 | 一种跨语言推荐方法和系统 |
CN107066497A (zh) * | 2016-12-29 | 2017-08-18 | 努比亚技术有限公司 | 一种搜索方法和装置 |
CN107247745A (zh) * | 2017-05-23 | 2017-10-13 | 华中师范大学 | 一种基于伪相关反馈模型的信息检索方法及系统 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN109684445A (zh) * | 2018-11-13 | 2019-04-26 | 中国科学院自动化研究所 | 口语化医疗问答方法及系统 |
CN110069599A (zh) * | 2019-03-13 | 2019-07-30 | 平安城市建设科技(深圳)有限公司 | 基于近似词的检索方法、装置、设备及可读存储介质 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN108334490B (zh) | 关键词提取方法以及关键词提取装置 | |
CN106294639B (zh) | 基于语义的跨语言专利新创性预判分析方法 | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
WO2018153215A1 (zh) | 一种自动生成语义相近句子样本的方法 | |
CN113806482B (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN112818093A (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111191022A (zh) | 商品短标题生成方法及装置 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN107239455B (zh) | 核心词识别方法及装置 | |
CN115329048A (zh) | 一种语句检索的方法及装置、电子设备、存储介质 | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP4640593B2 (ja) | 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN108491407B (zh) | 一种面向代码检索的查询扩展方法 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
CN112988977A (zh) | 基于近似词的模糊匹配媒资内容库检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210618 |