CN111309866B

CN111309866B - 一种利用语义模糊搜索对写作素材进行智能检索的系统及方法

Info

Publication number: CN111309866B
Application number: CN202010094106.8A
Authority: CN
Inventors: 裴正奇; 彭陈; 段必超; 于秋鑫; 朱斌斌
Original assignee: Shenzhen Qianhai Heidun Technology Co ltd
Current assignee: Shenzhen Qianhai Heidun Technology Co ltd
Priority date: 2020-02-15
Filing date: 2020-02-15
Publication date: 2023-09-15
Anticipated expiration: 2040-02-15
Also published as: CN111309866A

Abstract

本发明公开了一种利用语义模糊搜索对写作素材进行智能检索的系统及方法。该系统可以根据应试场景、用途、格式等因素，进行针对性的高权威与高品质的素材采集，可以更好的保证用户所需求的品质；语义搜索模块的引入，充分的考虑了语义问题，使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小，大大提高了搜索匹配的准确度；将素材库的各个素材的内容根据终止符进行单句拆分，根据请求字符段的长度进行分组，这种素材库句向量的预处理方法，显著提高了运算速率；根据用户输入的期望语句，按照语义关联度进行排序同时显示出多个检索结果，并允许用户根据各个输出结果查看素材原文，让用户可以有更加全面的选择。

Description

一种利用语义模糊搜索对写作素材进行智能检索的系统及方法

技术领域

发明涉及语义模糊搜索与写作素材智能检索相结合的相关领域，尤其涉及一种利用语义模糊搜索对写作素材进行智能检索的系统及方法。

背景技术

在当今社会，网络信息日益增长，从大量的信息中如何快速有效地找到用户真正需要的信息成为热门的研究主题。简单来说，网络信息主要是由大量的文本构成，在大量的文本中准确地检索到真正有用的信息是本发明专利的核心。本发明主要涉及的技术是模糊搜索，即在大量文本信息中完成文本匹配任务，最初对于文本的匹配主要是使用BF(BruteForce)、RK(Robin-Karp)、KMP(Knuth-Morris-Pratt)、BM(Boyer Moore)等算法进行字符的精准匹配，也就是在文本信息中找到与关键词完全一样的字符串才算匹配成功，这样的方式没有考虑到语义信息，不能完成模糊匹配的任务，会造成大量的有用信息在检索时丢失。对文本进行模糊匹配，即字符串模糊匹配，主要的方法有位向量方法、过滤方法等等，应用位向量方法时，需要大量的空间，对于内存小的微型计算机，比如嵌入式系统，内存负载过大会导致系统不能正常运行。现在主流的文本匹配技术中常常会利用深度学习语言模型，深度学习语言模型会学习语料中的语义信息，这样能够在大量的文本信息中精准的检索出用户需要的文本信息。

当前对写作素材进行智能检索存在以下缺点：

1、搜索篇幅过大，现有的技术，对于佳句、范文的推荐搜索往往都是以主旨或者命令为搜索条件，进行整个篇幅的搜索，都不能对句子级别特征捕捉进行模糊搜索，因此题目和命题的多种多样让用户很难找到自己想要的内容，或者需要经过繁杂的筛检过程，才能从众多文字中拿到自己所需的小部分内容，会消耗大量的时间和精力；

2、搜索匹配准确度低，不能很好的支持语义联想，不能很好的解决在文本中上下文导致关键语句发生语义偏移的问题，从而会使得搜索的查全率降低。而且在分析语义相似度时，采用的都是比较单一的相似度度量指标，不能精准的计算出语义之间的相似度，即不能高效的衡量语义之间的相关性，这将导致搜索的成功率会下降，很多搜索的结果为空，但实际上可能存在满足用户需求的文本语句；

3、搜索匹配速度慢，对于复杂或者比较长的句子再进行搜索时，由于会使用到比较暴力的方式，例如枚举发，对文本进行处理，导致效率比较低，匹配速度慢，花费时间长。

为此，我们提出了一种利用语义模糊搜索对写作素材进行智能检索的系统及方法。

发明内容

本发明的目的在于提供一种利用语义模糊搜索对写作素材进行智能检索的系统及方法，以解决上述背景技术中提出的问题。

为了实现上述目的，本发明采用了如下技术方案：

一种利用语义模糊搜索对写作素材进行智能检索的系统，包括写作素材库、语义搜索模块、预处理模块和用户请求交互模块；

所述写作素材库，用于采集针对性素材，并对素材进行储存；

所述语义搜索模块，用于对用户的请求字符段在原始文本中进行语义检索，并输出与用户的请求字符段具有高语义关联度的一系列结果，其结果需包括对应的语义关联度数值和在原文本中的位置；

所述预处理模块，用于对素材库的各个素材进行预处理；

所述用户请求交互模块，用于将用户需求将期望搜索的语句输入系统，并将期望搜索的语句输送给所述语义检索模块，所述语义检索模块对期望搜索的语句在写作素材库进行模糊检索。

一种利用语义模糊搜索对写作素材进行智能检索的方法，包括以下步骤：

S1、搭建写作素材库，进行针对性的素材采集，要求被采集到的素材必须具备一定的权威性与高品质；

S2、接入语音搜索模块；

S3、对素材库句向量预处理；

S4、接入用户请求交互模块，用户根据需求将期望搜索的语句输入系统，所述系统再利用所述S2中的语义搜索模块对所述S1中的写作素材库通过素材库句向量预处理的方式进行模糊检索；

S5、检索结果展示。

优选地，所述写作素材库中单篇作文素材的内容必须整理为格式统一的字符串形式，并要求去除特殊符号、无效符号，并对字符格式进行统一规范化处理。

优选地，所述S3中对素材库句向量预处理包括将素材库的各个素材的内容根据终止符进行单句拆分，并逐句将其编码为句向量。

优选地，所述S3中对素材库句向量预处理还包括根据请求字符段的长度对素材库进行的预处理。

优选地，根据请求字符段的长度对素材库进行的预处理包括以下步骤：

S1、对请求字符段的长度进行分类，不同的长度对应不同的编码结果；

S2、对S1中的编码结果进行储存；

S3、输入实际请求的字符段，系统根据实际输入的字符段长度调取对应编码结果。

优选地，所述检索结果展示将按照其语义关联度进行排序，展示内容包括各个输出结果所对应的字符串、关联度，并要求用户能够根据各个输出结果跳转到该结果所对应的素材原文展示界面。

优选地，所述语义关联度由语义搜索模块计算得出。

与现有技术相比，本发明的有益效果是:

1、根据应试场景、用途、格式等因素，进行针对性的高权威与高品质的素材采集，可以更好的保证用户所需求的品质；

2、语义搜索模块的引入，充分的考虑了语义问题，使用分层计算语义相似度的方式高效的判断语句之间的语义相似度大小，大大提高了搜索匹配的准确度；

3、将素材库的各个素材的内容根据终止符进行单句拆分，根据请求字符段的长度进行分组，这种素材库句向量的预处理方法，显著提高了运算速率；

4、根据用户输入的期望语句，按照语义关联度进行排序同时显示出多个检索结果，并允许用户根据各个输出结果查看素材原文，让用户可以有更加全面的选择。

附图说明

图1为本发明提出的一种利用语义模糊搜索对写作素材进行智能检索的系统原理图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参考图1，本发明还提出了一种利用语义模糊搜索对写作素材进行智能检索的系统，包括写作素材库、语义搜索模块、预处理模块和用户请求交互模块；

写作素材库，用于采集针对性素材，并对素材进行储存；

语义搜索模块，用于对用户的请求字符段在原始文本中进行语义检索，并输出与用户的请求字符段具有高语义关联度的一系列结果，其结果需包括对应的语义关联度数值和在原文本中的位置；

预处理模块，用于对素材库的各个素材进行预处理；

用户请求交互模块，用于将用户需求将期望搜索的语句输入系统，并将期望搜索的语句输送给语义检索模块，语义检索模块对期望搜索的语句在写作素材库进行模糊检索。

进一步地，写作素材库，以英文为例，根据应试场景（高考、四六级、雅思托福）、用途（口语、书面）、格式（邮件、学术论文、散文）等因素，进行针对性的素材采集，要求被采集到的素材必须具备一定的权威性与高品质。

S2、接入语音搜索模块；

S3、对素材库句向量预处理；

S4、接入用户请求交互模块，用户根据需求将期望搜索的语句输入系统，系统再利用S2中的语义搜索模块对S1中的写作素材库通过素材库句向量预处理的方式进行模糊检索；

S5、检索结果展示。

进一步地，写作素材库中单篇作文素材的内容必须整理为格式统一的字符串形式，并要求去除特殊符号、无效符号，并对字符格式进行统一规范化处理。

进一步地，S3中对素材库句向量预处理包括将素材库的各个素材的内容根据终止符进行单句拆分，并逐句将其编码为句向量。

进一步地，S3中对素材库句向量预处理还包括根据请求字符段的长度对素材库进行的预处理。

进一步地，根据请求字符段的长度对素材库进行的预处理包括以下步骤：

S2、对S1中的编码结果进行储存；

进一步地，检索结果展示将按照其语义关联度进行排序，展示内容包括各个输出结果所对应的字符串、关联度，并要求用户能够根据各个输出结果跳转到该结果所对应的素材原文展示界面。

进一步地，语义关联度由语义搜索模块计算得出。

实施例

步骤1、首先由专业人士采集并整理专业权威的作文素材库。此案例暂用大学英语六级写作案例，素材库中包括：1995-2019年历年英语六级考试真题写作部分满分范文，历年英语六级预测作文满分范文。对采集到的作文素材进行规范化处理，整理得到标准化json数据，具体包括每篇范文的题目，出处以及内容。

并将整理好的大量的作文素材储存在特点的作文数据库上。

步骤2、将作文素材数据库中的每一篇作文素材按照stop words（.!?）进行分句，并逐句对这些句子进行向量化处理，得到每一篇作文对应的向量化数据。

具体包括：拆分后的每一个句子对应的句子编号以及起始和终止位置，每一个句子对应的句向量。并将向量化后的每一篇作文储存在特定的数据库。

步骤3、用户输入请求搜索语句后，输出与用户的请求字符段具有高语义关联度的一系列结果，其结果包括对应的语义关联度数值、对应的句子编号、对应的句子以及于原文本中的位置。

最后将返回的结果以前端页面展示给用户，展示顺序按照相似度递减，展示内容包括目标语句以及他的起始和终止位置，并且用户可以查看这个句子所在的完整范文。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种利用语义模糊搜索对写作素材进行智能检索的方法，其特征在于，包括以下步骤：

S2、接入语音搜索模块；

S3、对素材库句向量预处理；

S5、检索结果展示；

所述写作素材库中单篇作文素材的内容必须整理为格式统一的字符串形式，并要求去除特殊符号、无效符号，并对字符格式进行统一规范化处理；

所述S3中对素材库句向量预处理包括将素材库的各个素材的内容根据终止符进行单句拆分，并逐句将其编码为句向量；

所述S3中对素材库句向量预处理还包括根据请求字符段的长度对素材库进行的预处理；

根据请求字符段的长度对素材库进行的预处理包括以下步骤：

S2、对S1中的编码结果进行储存；

2.根据权利要求1所述的一种利用语义模糊搜索对写作素材进行智能检索的方法，其特征在于，所述检索结果展示将按照其语义关联度进行排序，展示内容包括各个输出结果所对应的字符串、关联度，并要求用户能够根据各个输出结果跳转到该结果所对应的素材原文展示界面。

3.根据权利要求2所述的一种利用语义模糊搜索对写作素材进行智能检索的方法，其特征在于，所述语义关联度由语义搜索模块计算得出。

4.一种利用语义模糊搜索对写作素材进行智能检索的系统，用于权利要求1-3任一所述的方法，其特征在于，包括写作素材库、语义搜索模块、预处理模块和用户请求交互模块；

所述预处理模块，用于对素材库的各个素材进行预处理；