CN109446313B

CN109446313B - 一种基于自然语言分析的排序系统及方法

Info

Publication number: CN109446313B
Application number: CN201811285768.2A
Authority: CN
Inventors: 朱容宇; 聂国新; 杨洋; 李俊霖; 李翔
Original assignee: Chongqing Isoft Technology Co ltd
Current assignee: Aisi Technology (Chongqing) Group Co.,Ltd.
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-10-02
Anticipated expiration: 2038-10-31
Also published as: CN109446313A

Abstract

本发明公开了一种基于自然语言分析的排序系统和方法，其中，系统包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块；数据获取模块用于获取文本数据；业务规则模块用于设置业务领域违规则词规则和业务衍生词汇；自然语言分析系统用于提取关键词和语义片段；数据索引模块用于创建索引，并将索引分片存储于数据索引库中；检索展示模块用于将检索结果排序后对进行可视化输出展示；本发明通过自然语言分析系统，对所需要分析的内容进行解析，得出相关关键词和语义片段；通过建立相关业务规则和业务衍生词汇，完善自然语句分析系统分析同类型的深度和广度。

Description

一种基于自然语言分析的排序系统及方法

技术领域

本发明属于数据检索技术领域，具体涉及一种基于自然语言分析的排序系统及方法。

背景技术

如今关键词匹配技术和模糊匹配技术是检索系统主要采用的方式，这种方式具有如下不足：1、搜索效率低。采用关键词匹配技术和模糊匹配技术进行检索，由于关键词数量太大，关键词同义词或衍生词汇众多，一方面关键词匹配并展示的数据对使用者来说相关度不高，其中会存在大量的干扰数据，很难从大量数据中有效分离出所需数据，无法满足现在对于数据发现准确性的要求；另一方面，对于关键词的其他同含义词汇或衍生词汇很难找出。2、搜索结果排序展示关联度不大。搜索结果排序展示仅仅通过关键词进行判断，排序关联度不大，导致使用者无法通过展示序列快速找到需要的数据信息，其在部分需要快速精准的检索大量数据并展示相关内容的场景中效果有限。

发明内容

为了解决现有技术存在的上述问题，本发明目的在于提供一种基于自然语言分析的排序系统。

进一步，本发明目的还在于提供一种基于自然语言分析的排序方法。

本发明所采用的技术方案为：

一种基于自然语言分析的排序系统，包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块；所述数据获取模块用于获取用户的输入数据，并将输入数据转换为文本数据；所述文本数据为待存储文本数据或待检索文本数据；所述数据存储预处理模块用于对需要进行存储的待存储文本数据进行预处理；所述数据库用于存储经预处理后的待存储文本数据；所述业务规则模块用于设置业务领域违规则词规则和业务衍生词汇；所述数据检索预处理模块用于将待检索文本数据进行规范化；所述自然语言分析系统用于利用业务规则模块设置的业务领域违规词规则和业务衍生词汇对存储于数据库中的文本数据进行分析，提取关键词和语义片段；所述数据索引模块用于创建索引，并将索引分片存储于数据索引库中；所述检索展示模块用于将检索结果按检索结果结构、规则规格化后按排序规则排序后对用户进行可视化输出展示。

进一步，所述数据获取模块包括文字识别单元，该文字识别单元用于识别图片上的文字信息，将图片数据转换为文本数据。

更进一步，所述数据获取模块包括语音识别单元，该语音识别单元用于识别语音数据，将语音数据转换为文本数据。

更进一步，所述数据存储预处理模块包括待存储文本预处理单元和索引结构构造单元；所述待存储文本预处理单元用于将需要进行存储的待存储文本数据进行规范化和分类；所述索引结构构造单元用于对经预处理的待存储文本数据按行业构建索引结构。

更进一步，所述自然语言分析系统包括语义分析单元、内容挖掘单元、词性标注单元、篇章分析单元、分词分字单元、句法分析单元、词向量机单元、内容挖掘单元中的一种或几种。

更进一步，所述检索展示模块包括检索结果结构与规则定义单元、检索索引单元、检索结果规格化与排序单元、检索结果输出单元、排序规则输入组件和排序策略集。

更进一步，本发明提供一种基于自然语言分析的排序方法，包括如下步骤：

取用户输入数据，并将输入数据转换为文本数据；

对文本数据进行预处理；

采用自然语言分析方法对经预处理后的文本数据进行关键词或语义片段的抽取；

对关键词或语义片段创建索引，并将索引分片存储于数据索引库中；或

检索索引并将数据索引库返回的检索结果输出并展示。

进一步，所述对文本数据进行预处理包括对待存储文本数据进行预处理或对待检索文本数据进行预处理。

更进一步，所述对待存储数据进行预处理包括如下步骤：

将待存储文本数据进行规范化和分类；

将经规范化和分类的待存储文本数据按行业构建索引结构；

将已构建索引结构的待存储文本数据存储于数据库中。

更进一步，所述检索索引并将数据索引库返回的检索结果输出并展示，包括如下步骤：

根据关键词或语义片段定义检索结果结构和规则；

根据关键词或语义片段在数据索引库中检索索引，得到检索结果；

根据检索结果结构和规则将检索结果规格化，并根据排序策略对检索结果进行排序；

将检索结果进行可视化展示。

本发明具有如下有益效果：

本发明通过自然语言分析系统，采用内容挖掘、篇章分析、句法分析、语义分析、分词分字、词向量机、词性标注等方式，对所需要分析的内容进行解析，得出相关关键词和语义片段。通过建立相关业务规则和业务衍生词汇，通过数据的不断分析，完善自然语句分析系统分析同类型的深度和广度，精确数据范围。

附图说明

图1为本发明方框原理图；

图2为本发明流程图；

图3为待存储数据进行预处理流程图；

图4为检索索引并将数据索引库返回的检索结果输出并展示步骤流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。

一种基于自然语言分析的排序系统，包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块。

数据获取模块用于获取用户的输入数据，并将输入数据转换为文本数据，该文本数据为待存储文本数据或待检索文本数据。

用户的输入数据可以是利用网络爬虫在互联网上抓取获得，也可以是用户在输入框内输入的数据。用户的输入数据可以是来自于互联网的图片数据、语音数据、文本数据，也可以是用户自定义的文本数据。数据获取模块获取用户的输入数据，并采用文字识别、语音识别将输入数据转换为文本数据，以利于后续处理。

具体的，数据获取模块包括文字识别单元和语音识别单元。文字识别单元用于识别图片上的文字信息，将图片数据转换为文本数据。语音识别单元用于识别语音数据，将语音数据转换为文本数据。

数据存储预处理模块用于对需要进行存储的待存储文本数据进行预处理。数据存储预处理模块包括待存储文本预处理单元和索引结构构造单元。

待存储文本预处理单元用于将需要进行存储的待存储文本数据进行规范化和分类。规范化是将数据按比例缩放，使之落入一个小的特定区间，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。分类是根据文本数据的来源进行分类，可以将来自于同一网站的文本数据归为同一类，以便于对文本数据来源的追踪。索引结构构造单元用于对经预处理的待存储文本数据按行业构建索引结构。

数据库用于存储经预处理后的待存储文本数据。数据库包括语料库、知识库、策略库、场景库和关键词库。语料库用于存储经预处理后的待存储文本数据。知识库、策略库、场景库和关键词库内容由人工按需求进行创造及对应调整。通过建立语料库、知识库、策略库、场景库和关键词库，可为自然语言分析系统提供原始数据材料。

业务规则模块用于设置业务领域违规则词规则和业务衍生词汇。同一个词汇，可能在一个业务领域是非违规词，而在另一个业务领域是违规词，通过对每个业务领域设置违规词规则，使本系统结果具有更高的准确性。例如，教授、副教授在学校领域是非违规词，而在医院则是违规词。业务衍生词汇定义了每个业务领域的常见衍生词汇。例如，以第一为关键词，其衍生词汇可能有世界第一、西南第一、全国第一、第一家等。

数据检索预处理模块用于将待检索文本数据进行规范化，该规范化方法与待存储文本数据规范化方法相同。

自然语言分析系统用于利用业务规则模块设置的业务领域违规词规则和业务衍生词汇对存储于数据库中的文本数据进行分析，提取关键词和语义片段。

自然语言分析系统包括语义分析单元、内容挖掘单元、词性标注单元、篇章分析单元、分词分字单元、句法分析单元和词向量机单元中的一种或几种。

语义分析单元用于进行语义相似度分析以及特征项权重计算，提取关键词特征项，对文本进行归一化，为文本向量化奠定基础。

内容挖掘单元用于在处理的数据中通过统计、情报检索、机器学习、过去的经验法则和模式识别等搜索隐藏于其中信息。

词性标注单元用于标注每个词的词性，即确定每个词是名词、动词、形容词或其他词性。

篇章分析单元用于用于分析文章段落，确定各个段落长度。

分词分句单元用于将分离出来的各个段落拆分为常用短语或短句。

句法分析单元用于确定句子的句法结构或者句子中词汇之间的依存关系用于向量生成模块，内置向量空间模型，用于对文本数据进行向量化，生成文本向量。

通过自然语言分析系统，采用内容挖掘、篇章分析、句法分析、语义分析、分词分字、词向量机、词性标注等方式，对所需要分析的内容进行解析，得出相关关键词和语义片段。通过建立相关业务规则和业务衍生词汇，通过数据的不断分析，完善自然语句分析系统分析同类型的深度和广度，精确数据范围。

数据索引模块用于创建索引，并将索引分片存储于数据索引库中。

检索展示模块用于将检索结果按检索结果结构、规则规格化后按排序规则排序后对用户进行可视化输出展示。

检索展示模块包括检索结果结构与规则定义单元、检索索引单元、检索结果规格化与排序单元、检索结果输出单元、排序规则输入组件和排序策略集。

检索结果结构与规则定义单元用于定义检索结果的结构和规则。例如一条存储下来的文本数据记录，可以有主题、内容、存储时间、数据大小等元信息，可以根据用户需求定义不同的展示方式展示不同的元素信息。

检索索引单元用于根据关键词或语义片段在数据索引库中检索索引，并接收返回的检索结果。

排序规则输入组件用于获取用户定义的排序规则。

排序策略集用于定义、封装排序规则算法。创建排序策略集，通过排序规则输入组件输入对应排序标准，通过搜索内容的不同，进行相关的排序，相关性、准确率高。

检索结果规格化与排序单元用于根据定义的检索结果的结构和规则将检索结果规格化，并根据排序规则算法对检索结果进行排序。排序算法如语义相关度评价值、命中关键词个数等。

检索结果输出模块用于将检索结果进行可视化展示。

进一步，本发明还提供一种基于自然语言分析的排序方法，该方法包括如下步骤：

S101、获取用户输入数据，并将输入数据转换为文本数据。

S102、对文本数据进行预处理。

S103、采用自然语言分析方法对经预处理后的文本数据进行关键词或语义片段的抽取。

S104、对关键词或语义片段创建索引，并将索引分片存储于数据索引库中；或

S105、检索索引并将数据索引库返回的检索结果输出并展示。

在步骤S101中，采用文字识别技术将图片数据转换为文本数据，采用语音识别技术将语音数据转换为文本数据。文本数据为待存储文本数据或待检索文本数据。

在步骤S102中，对文本数据进行预处理包括对待存储文本数据进行预处理或对待检索文本数据进行预处理。对待存储数据进行预处理包括如下步骤：

S201、将待存储文本数据进行规范化和分类。

S202、将经规范化和分类的待存储文本数据按行业构建索引结构。

S203、将已构建索引结构的待存储文本数据存储于数据库中。

待检索文本数据预处理为将待检索文本数据进行规范化。

在步骤S103之前，还包括设置业务领域违规词规则和业务衍生词汇的步骤。

在步骤S105中，检索索引并将数据索引库返回的检索结果输出并展示。包括如下步骤：

S301、根据关键词或语义片段定义检索结果结构和规则。

S302、根据关键词或语义片段在数据索引库中检索索引，得到检索结果。

S303、根据检索结果结构和规则将检索结果规格化，并根据排序策略对检索结果进行排序。

S304、将检索结果进行可视化展示。

本发明不局限于上述可选实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本发明权利要求界定范围内的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于自然语言分析的排序系统，其特征在于，包括数据获取模块、数据存储预处理模块、数据检索预处理模块、数据库、业务规则模块、自然语言分析系统、数据索引模块和检索展示模块；

所述数据获取模块用于获取用户的输入数据，并将输入数据转换为文本数据；所述文本数据为待存储文本数据或待检索文本数据；

所述数据存储预处理模块用于对需要进行存储的待存储文本数据进行预处理；

所述数据库用于存储经预处理后的待存储文本数据；

所述业务规则模块用于设置业务领域违规词规则和业务衍生词汇；

所述数据检索预处理模块用于将待检索文本数据进行规范化；

所述自然语言分析系统用于利用业务规则模块设置的业务领域违规词规则和业务衍生词汇对存储于数据库中的文本数据进行分析，提取关键词和语义片段；

所述数据索引模块用于创建索引，并将索引分片存储于数据索引库中；

所述检索展示模块用于将检索结果按检索结果结构、规则规格化后按排序规则排序后对用户进行可视化输出展示。

2.根据权利要求1所述的基于自然语言分析的排序系统，其特征在于，所述数据获取模块包括文字识别单元，该文字识别单元用于识别图片上的文字信息，将图片数据转换为文本数据。

3.根据权利要求1所述的基于自然语言分析的排序系统，其特征在于，所述数据获取模块包括语音识别单元，该语音识别单元用于识别语音数据，将语音数据转换为文本数据。

4.根据权利要求1所述的基于自然语言分析的排序系统，其特征在于，所述数据存储预处理模块包括待存储文本预处理单元和索引结构构造单元；所述待存储文本预处理单元用于将需要进行存储的待存储文本数据进行规范化和分类；所述索引结构构造单元用于对经预处理的待存储文本数据按行业构建索引结构。

5.根据权利要求1所述的基于自然语言分析的排序系统，其特征在于，所述自然语言分析系统包括语义分析单元、内容挖掘单元、词性标注单元、篇章分析单元、分词分字单元、句法分析单元、词向量机单元、内容挖掘单元中的一种或几种。

6.根据权利要求1所述的基于自然语言分析的排序系统，其特征在于，所述检索展示模块包括检索结果结构与规则定义单元、检索索引单元、检索结果规格化与排序单元、检索结果输出单元、排序规则输入组件和排序策略集。

7.基于自然语言分析的排序方法，其特征在于，包括如下步骤：