CN111309866B - 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 - Google Patents
一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 Download PDFInfo
- Publication number
- CN111309866B CN111309866B CN202010094106.8A CN202010094106A CN111309866B CN 111309866 B CN111309866 B CN 111309866B CN 202010094106 A CN202010094106 A CN 202010094106A CN 111309866 B CN111309866 B CN 111309866B
- Authority
- CN
- China
- Prior art keywords
- semantic
- material library
- search
- user
- preprocessing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种利用语义模糊搜索对写作素材进行智能检索的系统及方法。该系统可以根据应试场景、用途、格式等因素,进行针对性的高权威与高品质的素材采集,可以更好的保证用户所需求的品质;语义搜索模块的引入,充分的考虑了语义问题,使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小,大大提高了搜索匹配的准确度;将素材库的各个素材的内容根据终止符进行单句拆分,根据请求字符段的长度进行分组,这种素材库句向量的预处理方法,显著提高了运算速率;根据用户输入的期望语句,按照语义关联度进行排序同时显示出多个检索结果,并允许用户根据各个输出结果查看素材原文,让用户可以有更加全面的选择。
Description
技术领域
发明涉及语义模糊搜索与写作素材智能检索相结合的相关领域,尤其涉及一种利用语义模糊搜索对写作素材进行智能检索的系统及方法。
背景技术
在当今社会,网络信息日益增长,从大量的信息中如何快速有效地找到用户真正需要的信息成为热门的研究主题。简单来说,网络信息主要是由大量的文本构成,在大量的文本中准确地检索到真正有用的信息是本发明专利的核心。本发明主要涉及的技术是模糊搜索,即在大量文本信息中完成文本匹配任务,最初对于文本的匹配主要是使用BF(BruteForce)、RK(Robin-Karp)、KMP(Knuth-Morris-Pratt)、BM(Boyer Moore)等算法进行字符的精准匹配,也就是在文本信息中找到与关键词完全一样的字符串才算匹配成功,这样的方式没有考虑到语义信息,不能完成模糊匹配的任务,会造成大量的有用信息在检索时丢失。对文本进行模糊匹配,即字符串模糊匹配,主要的方法有位向量方法、过滤方法等等,应用位向量方法时,需要大量的空间,对于内存小的微型计算机,比如嵌入式系统,内存负载过大会导致系统不能正常运行。现在主流的文本匹配技术中常常会利用深度学习语言模型,深度学习语言模型会学习语料中的语义信息,这样能够在大量的文本信息中精准的检索出用户需要的文本信息。
当前对写作素材进行智能检索存在以下缺点:
1、搜索篇幅过大,现有的技术,对于佳句、范文的推荐搜索往往都是以主旨或者命令为搜索条件,进行整个篇幅的搜索,都不能对句子级别特征捕捉进行模糊搜索,因此题目和命题的多种多样让用户很难找到自己想要的内容,或者需要经过繁杂的筛检过程,才能从众多文字中拿到自己所需的小部分内容,会消耗大量的时间和精力;
2、搜索匹配准确度低,不能很好的支持语义联想,不能很好的解决在文本中上下文导致关键语句发生语义偏移的问题,从而会使得搜索的查全率降低。而且在分析语义相似度时,采用的都是比较单一的相似度度量指标,不能精准的计算出语义之间的相似度,即不能高效的衡量语义之间的相关性,这将导致搜索的成功率会下降,很多搜索的结果为空,但实际上可能存在满足用户需求的文本语句;
3、搜索匹配速度慢,对于复杂或者比较长的句子再进行搜索时,由于会使用到比较暴力的方式,例如枚举发,对文本进行处理,导致效率比较低,匹配速度慢,花费时间长。
为此,我们提出了一种利用语义模糊搜索对写作素材进行智能检索的系统及方法。
发明内容
本发明的目的在于提供一种利用语义模糊搜索对写作素材进行智能检索的系统及方法,以解决上述背景技术中提出的问题。
为了实现上述目的,本发明采用了如下技术方案:
一种利用语义模糊搜索对写作素材进行智能检索的系统,包括写作素材库、语义搜索模块、预处理模块和用户请求交互模块;
所述写作素材库,用于采集针对性素材,并对素材进行储存;
所述语义搜索模块,用于对用户的请求字符段在原始文本中进行语义检索,并输出与用户的请求字符段具有高语义关联度的一系列结果,其结果需包括对应的语义关联度数值和在原文本中的位置;
所述预处理模块,用于对素材库的各个素材进行预处理;
所述用户请求交互模块,用于将用户需求将期望搜索的语句输入系统,并将期望搜索的语句输送给所述语义检索模块,所述语义检索模块对期望搜索的语句在写作素材库进行模糊检索。
一种利用语义模糊搜索对写作素材进行智能检索的方法,包括以下步骤:
S1、搭建写作素材库,进行针对性的素材采集,要求被采集到的素材必须具备一定的权威性与高品质;
S2、接入语音搜索模块;
S3、对素材库句向量预处理;
S4、接入用户请求交互模块,用户根据需求将期望搜索的语句输入系统,所述系统再利用所述S2中的语义搜索模块对所述S1中的写作素材库通过素材库句向量预处理的方式进行模糊检索;
S5、检索结果展示。
优选地,所述写作素材库中单篇作文素材的内容必须整理为格式统一的字符串形式,并要求去除特殊符号、无效符号,并对字符格式进行统一规范化处理。
优选地,所述S3中对素材库句向量预处理包括将素材库的各个素材的内容根据终止符进行单句拆分,并逐句将其编码为句向量。
优选地,所述S3中对素材库句向量预处理还包括根据请求字符段的长度对素材库进行的预处理。
优选地,根据请求字符段的长度对素材库进行的预处理包括以下步骤:
S1、对请求字符段的长度进行分类,不同的长度对应不同的编码结果;
S2、对S1中的编码结果进行储存;
S3、输入实际请求的字符段,系统根据实际输入的字符段长度调取对应编码结果。
优选地,所述检索结果展示将按照其语义关联度进行排序,展示内容包括各个输出结果所对应的字符串、关联度,并要求用户能够根据各个输出结果跳转到该结果所对应的素材原文展示界面。
优选地,所述语义关联度由语义搜索模块计算得出。
与现有技术相比,本发明的有益效果是:
1、根据应试场景、用途、格式等因素,进行针对性的高权威与高品质的素材采集,可以更好的保证用户所需求的品质;
2、语义搜索模块的引入,充分的考虑了语义问题,使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小,大大提高了搜索匹配的准确度;
3、将素材库的各个素材的内容根据终止符进行单句拆分,根据请求字符段的长度进行分组,这种素材库句向量的预处理方法,显著提高了运算速率;
4、根据用户输入的期望语句,按照语义关联度进行排序同时显示出多个检索结果,并允许用户根据各个输出结果查看素材原文,让用户可以有更加全面的选择。
附图说明
图1为本发明提出的一种利用语义模糊搜索对写作素材进行智能检索的系统原理图。
实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参考图1,本发明还提出了一种利用语义模糊搜索对写作素材进行智能检索的系统,包括写作素材库、语义搜索模块、预处理模块和用户请求交互模块;
写作素材库,用于采集针对性素材,并对素材进行储存;
语义搜索模块,用于对用户的请求字符段在原始文本中进行语义检索,并输出与用户的请求字符段具有高语义关联度的一系列结果,其结果需包括对应的语义关联度数值和在原文本中的位置;
预处理模块,用于对素材库的各个素材进行预处理;
用户请求交互模块,用于将用户需求将期望搜索的语句输入系统,并将期望搜索的语句输送给语义检索模块,语义检索模块对期望搜索的语句在写作素材库进行模糊检索。
进一步地,写作素材库,以英文为例,根据应试场景(高考、四六级、雅思托福)、用途(口语、书面)、格式(邮件、学术论文、散文)等因素,进行针对性的素材采集,要求被采集到的素材必须具备一定的权威性与高品质。
一种利用语义模糊搜索对写作素材进行智能检索的方法,包括以下步骤:
S1、搭建写作素材库,进行针对性的素材采集,要求被采集到的素材必须具备一定的权威性与高品质;
S2、接入语音搜索模块;
S3、对素材库句向量预处理;
S4、接入用户请求交互模块,用户根据需求将期望搜索的语句输入系统,系统再利用S2中的语义搜索模块对S1中的写作素材库通过素材库句向量预处理的方式进行模糊检索;
S5、检索结果展示。
进一步地,写作素材库中单篇作文素材的内容必须整理为格式统一的字符串形式,并要求去除特殊符号、无效符号,并对字符格式进行统一规范化处理。
进一步地,S3中对素材库句向量预处理包括将素材库的各个素材的内容根据终止符进行单句拆分,并逐句将其编码为句向量。
进一步地,S3中对素材库句向量预处理还包括根据请求字符段的长度对素材库进行的预处理。
进一步地,根据请求字符段的长度对素材库进行的预处理包括以下步骤:
S1、对请求字符段的长度进行分类,不同的长度对应不同的编码结果;
S2、对S1中的编码结果进行储存;
S3、输入实际请求的字符段,系统根据实际输入的字符段长度调取对应编码结果。
进一步地,检索结果展示将按照其语义关联度进行排序,展示内容包括各个输出结果所对应的字符串、关联度,并要求用户能够根据各个输出结果跳转到该结果所对应的素材原文展示界面。
进一步地,语义关联度由语义搜索模块计算得出。
实施例
步骤1、首先由专业人士采集并整理专业权威的作文素材库。此案例暂用大学英语六级写作案例,素材库中包括:1995-2019年历年英语六级考试真题写作部分满分范文,历年英语六级预测作文满分范文。对采集到的作文素材进行规范化处理,整理得到标准化json数据,具体包括每篇范文的题目,出处以及内容。
并将整理好的大量的作文素材储存在特点的作文数据库上。
步骤2、将作文素材数据库中的每一篇作文素材按照stop words(.!?)进行分句,并逐句对这些句子进行向量化处理,得到每一篇作文对应的向量化数据。
具体包括:拆分后的每一个句子对应的句子编号以及起始和终止位置,每一个句子对应的句向量。并将向量化后的每一篇作文储存在特定的数据库。
步骤3、用户输入请求搜索语句后,输出与用户的请求字符段具有高语义关联度的一系列结果,其结果包括对应的语义关联度数值、对应的句子编号、对应的句子以及于原文本中的位置。
最后将返回的结果以前端页面展示给用户,展示顺序按照相似度递减,展示内容包括目标语句以及他的起始和终止位置,并且用户可以查看这个句子所在的完整范文。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种利用语义模糊搜索对写作素材进行智能检索的方法,其特征在于,包括以下步骤:
S1、搭建写作素材库,进行针对性的素材采集,要求被采集到的素材必须具备一定的权威性与高品质;
S2、接入语音搜索模块;
S3、对素材库句向量预处理;
S4、接入用户请求交互模块,用户根据需求将期望搜索的语句输入系统,所述系统再利用所述S2中的语义搜索模块对所述S1中的写作素材库通过素材库句向量预处理的方式进行模糊检索;
S5、检索结果展示;
所述写作素材库中单篇作文素材的内容必须整理为格式统一的字符串形式,并要求去除特殊符号、无效符号,并对字符格式进行统一规范化处理;
所述S3中对素材库句向量预处理包括将素材库的各个素材的内容根据终止符进行单句拆分,并逐句将其编码为句向量;
所述S3中对素材库句向量预处理还包括根据请求字符段的长度对素材库进行的预处理;
根据请求字符段的长度对素材库进行的预处理包括以下步骤:
S1、对请求字符段的长度进行分类,不同的长度对应不同的编码结果;
S2、对S1中的编码结果进行储存;
S3、输入实际请求的字符段,系统根据实际输入的字符段长度调取对应编码结果。
2.根据权利要求1所述的一种利用语义模糊搜索对写作素材进行智能检索的方法,其特征在于,所述检索结果展示将按照其语义关联度进行排序,展示内容包括各个输出结果所对应的字符串、关联度,并要求用户能够根据各个输出结果跳转到该结果所对应的素材原文展示界面。
3.根据权利要求2所述的一种利用语义模糊搜索对写作素材进行智能检索的方法,其特征在于,所述语义关联度由语义搜索模块计算得出。
4.一种利用语义模糊搜索对写作素材进行智能检索的系统,用于权利要求1-3任一所述的方法,其特征在于,包括写作素材库、语义搜索模块、预处理模块和用户请求交互模块;
所述写作素材库,用于采集针对性素材,并对素材进行储存;
所述语义搜索模块,用于对用户的请求字符段在原始文本中进行语义检索,并输出与用户的请求字符段具有高语义关联度的一系列结果,其结果需包括对应的语义关联度数值和在原文本中的位置;
所述预处理模块,用于对素材库的各个素材进行预处理;
所述用户请求交互模块,用于将用户需求将期望搜索的语句输入系统,并将期望搜索的语句输送给所述语义检索模块,所述语义检索模块对期望搜索的语句在写作素材库进行模糊检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094106.8A CN111309866B (zh) | 2020-02-15 | 2020-02-15 | 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094106.8A CN111309866B (zh) | 2020-02-15 | 2020-02-15 | 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309866A CN111309866A (zh) | 2020-06-19 |
CN111309866B true CN111309866B (zh) | 2023-09-15 |
Family
ID=71148373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010094106.8A Active CN111309866B (zh) | 2020-02-15 | 2020-02-15 | 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309866B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832285A (zh) * | 2020-06-23 | 2020-10-27 | 北京数智管家科技有限公司 | 一种自动化推荐稿件素材的方法 |
CN111737405B (zh) * | 2020-07-03 | 2021-02-02 | 和宇健康科技股份有限公司 | 一种图文素材存档管理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563620A (zh) * | 2018-04-13 | 2018-09-21 | 上海财梵泰传媒科技有限公司 | 文本自动写作方法和系统 |
CN108763516A (zh) * | 2018-05-31 | 2018-11-06 | 悦未来科技(深圳)有限公司 | 写作交互方法、装置及计算机可读存储介质 |
CN110008312A (zh) * | 2019-04-10 | 2019-07-12 | 成都信息工程大学 | 一种文档写作助手实现方法、系统及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3062700A1 (en) * | 2017-05-25 | 2018-11-29 | J. W. Pepper & Son, Inc. | Sheet music search and discovery system |
-
2020
- 2020-02-15 CN CN202010094106.8A patent/CN111309866B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563620A (zh) * | 2018-04-13 | 2018-09-21 | 上海财梵泰传媒科技有限公司 | 文本自动写作方法和系统 |
CN108763516A (zh) * | 2018-05-31 | 2018-11-06 | 悦未来科技(深圳)有限公司 | 写作交互方法、装置及计算机可读存储介质 |
CN110008312A (zh) * | 2019-04-10 | 2019-07-12 | 成都信息工程大学 | 一种文档写作助手实现方法、系统及电子设备 |
Non-Patent Citations (2)
Title |
---|
刘晓曦 ; .人工智能语音技术在广电媒体的应用.广播电视信息.2018,(03),全文. * |
李玉民 ; .如何利用文献资料撰写医学综述.中国热带医学.2018,(11),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111309866A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN110750635B (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN110569353A (zh) | 一种基于注意力机制的Bi-LSTM的标签推荐方法 | |
CN111310471A (zh) | 一种基于bblc模型的旅游命名实体识别方法 | |
Saravanan et al. | Improving legal document summarization using graphical models | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN111309866B (zh) | 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法 | |
WO2021190662A1 (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN116881425A (zh) | 一种通用型文档问答实现方法、系统、设备及存储介质 | |
CN114661872A (zh) | 一种面向初学者的api自适应推荐方法与系统 | |
CN115390806A (zh) | 基于双模态联合建模的软件设计模式推荐方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN114064855B (zh) | 一种基于变压器知识库的信息检索方法及系统 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN114238616A (zh) | 一种专家信息检测方法和存储设备 | |
CN103119585A (zh) | 知识获取装置及方法 | |
CN116720502B (zh) | 基于机器阅读理解与模板规则的航空文档信息抽取方法 | |
CN114036946B (zh) | 一种文本特征提取及辅助检索的系统及方法 | |
CN114153947A (zh) | 一种文档处理方法、装置、设备及存储介质 | |
Zhang et al. | The application and prospects of big data analysis in English literature research | |
CN117520570A (zh) | 一种面向政策文件的智能文本辅助处理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |