CN113806619B

CN113806619B - 一种语义分析系统以及语义分析方法

Info

Publication number: CN113806619B
Application number: CN202110956550.0A
Authority: CN
Inventors: 杨建仁
Original assignee: Guangzhou Clouddcs Co ltd
Current assignee: Guangzhou Clouddcs Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-09-09
Anticipated expiration: 2041-08-19
Also published as: CN113806619A

Abstract

本发明提供了一种语义分析系统以及语义分析方法，通过用户在客户端输入的关键字符串和将文件通过文字识别得到的字符串数据集合，利用分词算法进行切分，求得关键字符串和字符串数据集合的距离度，进而根据距离度计算选取出连接序列，通过云服务器将连接序列发送到客户端，实现对大规模纸质文件的高效率信息处理，达到对大规模纸质文件的根据主题相关度的智能推荐排序进行在客户端的显示。

Description

一种语义分析系统以及语义分析方法

技术领域

本发明属于文字识别领域，具体涉及一种语义分析系统以及语义分析方法。

背景技术

在现代的知识管理系统中，对信息的检索的需求日益增大。书本是人类管理和储存知识的重要手段，但是书本对于人类视力的时间要求和体力要求较大，不方便高效获取相关主题的信息。文字识别技术有助于利用机器智能技术将书本上的文字转化为计算机可处理的字符串信息，同时方便字符串信息的调用和存储。

对于给定相关的主题，在大量检索书本纸张中的信息方面，需要衡量纸张中的文字信息与给定主题的语义相似度，同时兼顾对相关主题的相近度的优先推荐。词向量技术的使用有助于计算文本的语义的相关程度，对文本的推荐具有极大的帮助。

利用文本识别技术结合词向量技术，可以对大规模的纸质资料进行识别处理，将多个纸质资料包含的信息与给定主题进行计算比较和排序，在客户端上进行按一定顺序的推荐和显示。

发明内容

本发明的目的在于提出一种语义分析方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

为了实现上述目的，根据本公开的一方面，提供一种语义分析方法，所述方法包括以下步骤：

S100，把用户在客户端输入的字符串Token传输到云服务器；

S200，将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器；

S300，在云服务器中，将集合Wordset通过分词算法得到集合Paraset；

S400，在云服务器中，计算字符串Token在Paraset中元素的距离度；

S500，根据距离度计算选取出连接序列Sline；

S600，云服务器将Sline发送到客户端。

进一步地，在S100中，把用户在客户端输入的字符串Token传输到云服务器的方法为：采集用户在客户端所输入的字符串记作Token，将字符串Token传输到云服务器。

进一步地，在S200中，将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器的方法为：将印有文字的纸张作为文件，将多个文件分别通过文字识别技术识别得到的多个字符串数据作为集合Wordset，将集合Wordset传输到云服务器，在云服务器的数据库中进行储存。

进一步地，在S300中，在云服务器中，将集合Wordset通过分词算法得到集合Paraset的方法为：在云服务器的数据库中获取集合Wordset，将集合Wordset中的每一个字符串数据分别通过分词算法转化为字符串数组，将由集合Wordset中各个字符串数据通过分词得到的多个字符串数组作为集合Paraset。

进一步地，在S400中，在云服务器中，计算字符串Token在Paraset中元素的距离度的方法为：计算字符串Token在Paraset中各元素的多个连接序列的具体方法为，记集合Paraset各元素的数量为n，变量i为集合Paraset中元素的序号，i∈[1,n]，字符串数组Paraset(i)表示集合Paraset中序号为i的元素，记变量j表示字符串数组Paraset(i)中字符串的序号，m为字符串数组Paraset(i)中包含的字符串的数量，word(i,j)表示集合Paraset中序号为i的元素Paraset(i)中的序号为j的字符串，记函数Vec()为通过词向量方法将输入的字符串进行向量化得到词向量的函数，通过函数Vec()所得的词向量的维度均相同，记通过函数Vec()所得的词向量的维度为k，变量t表示通过函数Vec()所得的词向量的第t维的序号，t∈[1,k]，则Vec(Token)表示通过词向量方法将Token进行向量化得到的词向量，记vt即表示Vec(Token),Vec(word(i,j))表示通过词向量方法将word(i,j)进行向量化得到的词向量，记vw即表示Vec(word(i,j))，vt[t]表示Vec(Token)的第t维数值，vw[t]表示Vec(word(i,j))的第t维数值，记词向量Vec(Token)与Vec(word(i,j))之间的距离度为d(i,j)，计算词向量Vec(Token)与Vec(word(i,j))之间的距离度d(i,j)的公式为：

则记函数D()为输入两个向量计算两个向量之间的距离度的函数，词向量Vec(Token)与Vec(word(i,j))之间的距离度为d(i,j)可通过函数D()表示为:

d(i,j)=D(Vec(Token),Vec(word(i,j))),

或者d(i,j)=D(vt,vw),

或者D(vt,vw)=D(Vec(Token),Vec(word(i,j)))。

进一步地，在S500中，根据距离度计算选取出连接序列Sline的方法为：计算Vec(Token)分别与集合Paraset中序号为i的元素Paraset(i)中的各个字符串通过函数Vec()进行向量化得到的各个词向量的距离记作整体距离度Dis(vt, Paraset(i))，整体距离度函数Dis()表示计算一个词向量与集合Paraset中序号为i的元素Paraset(i)中的各个字符串通过函数Vec()进行向量化得到的各个词向量的整体距离度，Dis(vt, Paraset(i))整体距离度的计算公式为：

进而根据Dis(vt, Paraset(i))的公式分别计算vt 与Paraset中各个元素之间的整体距离度，将vt 与Paraset中各个元素之间的整体距离度作为集合Diset，根据集合Diset中各元素的数值大小按从小到大的顺序对各元素在Paraset中的序号进行排序得到连接序列Sline。

本公开还提供了一种语义分析系统，所述一种语义分析系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现一种语义分析方法中的步骤，所述一种语义分析系统可以运行于桌上型计算机、笔记本、移动电话、手提电话、平板电脑、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群，所述处理器执行所述计算机程序运行在以下系统的单元中：

客户端输入单元，用于把用户在客户端输入的字符串Token传输到云服务器；

文字识别单元，用于将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器；

分词单元，用于在云服务器中将集合Wordset通过分词算法得到集合Paraset；

距离度计算单元，用于在云服务器中计算字符串Token在Paraset中元素的距离度；

序列选取单元，用于根据距离度计算选取出连接序列Sline；

序列发送单元，用于通过云服务器将Sline发送到客户端。

本发明的有益效果为：本发明提供了一种语义分析方法及系统，实现对大规模纸质文件的高效率信息处理，达到对大规模纸质文件的根据主题相关度的智能推荐排序进行在客户端的显示。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种语义分析方法的流程图；

图2所示为一种语义分析系统的系统结构图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示为根据本发明的一种语义分析方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种语义分析方法及系统。

本公开提出一种语义分析方法，所述方法具体包括以下步骤：

S100，把用户在客户端输入的字符串Token传输到云服务器；

S500，根据距离度计算选取出连接序列Sline；

S600，云服务器将Sline发送到客户端。

进一步地，在S200中，将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器的方法为：将印有文字的纸张作为文件，将多个文件分别通过文字识别技术（参考: [1]杨天长. 基于神经网络的文字识别技术研究及应用[D]. 北方工业大学. [2]张新峰, 闫昆鹏, 赵珣. 基于双向LSTM的手写文字识别技术研究[J]. 南京师大学报(自然科学版), 2019, v.42;No.159(03):64-70.）识别得到的多个字符串数据作为集合Wordset，将集合Wordset传输到云服务器，在云服务器的数据库中进行储存。

进一步地，在S300中，在云服务器中，将集合Wordset通过分词算法得到集合Paraset的方法为：在云服务器的数据库中获取集合Wordset，将集合Wordset中的每一个字符串数据分别通过分词算法（参考：[1] Zhao L , Qi Z , Peng W , et al. NeuralNetworks Incorporating Unlabeled and Partially-labeled Data for Cross-domainChinese Word Segmentation[C] Twenty-Seventh International Joint Conference onArtificial Intelligence IJCAI-18. 2018. [2] YL, Z Yue, WC, et al. DomainAdaptation for CRF-based Chinese Word Segmentation using Free Annotations[C]In Proceedings of the 2014 Conference on Empirical Methods in NaturalLanguage Processing. 2014.）转化为字符串数组，将由集合Wordset中各个字符串数据通过分词得到的多个字符串数组作为集合Paraset。

进一步地，在S400中，在云服务器中，计算字符串Token在Paraset中元素的距离度的方法为：计算字符串Token在Paraset中各元素的多个连接序列的具体方法为，记集合Paraset各元素的数量为n，变量i为集合Paraset中元素的序号，i∈[1,n]，字符串数组Paraset(i)表示集合Paraset中序号为i的元素，记变量j表示字符串数组Paraset(i)中字符串的序号，m为字符串数组Paraset(i)中包含的字符串的数量，word(i,j)表示集合Paraset中序号为i的元素Paraset(i)中的序号为j的字符串，记函数Vec()为通过词向量方法（参考论文：[1] Pennington J , Socher R , Manning C . Glove: Global Vectorsfor Word Representation[C]// Conference on Empirical Methods in NaturalLanguage Processing. 2014. 参考具体使用工具：https://github.com/explosion/spaCy）将输入的字符串进行向量化得到词向量的函数，通过函数Vec()所得的词向量的维度均相同，记通过函数Vec()所得的词向量的维度为k，变量t表示通过函数Vec()所得的词向量的第t维的序号，t∈[1,k]，则Vec(Token)表示通过词向量方法将Token进行向量化得到的词向量，记vt即表示Vec(Token),Vec(word(i,j))表示通过词向量方法将word(i,j)进行向量化得到的词向量，记vw即表示Vec(word(i,j))，vt[t]表示Vec(Token)的第t维数值，vw[t]表示Vec(word(i,j))的第t维数值，记词向量Vec(Token)与Vec(word(i,j))之间的距离度为d(i,j)，计算词向量Vec(Token)与Vec(word(i,j))之间的距离度d(i,j)的公式为：

d(i,j)=D(Vec(Token),Vec(word(i,j))),

或者d(i,j)=D(vt,vw),

或者D(vt,vw)=D(Vec(Token),Vec(word(i,j)))。

所述一种语义分析系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种语义分析方法实施例中的步骤，所述一种语义分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本公开的实施例提供的一种语义分析系统，如图2所示，该实施例的一种语义分析系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种语义分析方法实施例中的步骤，所述处理器执行所述计算机程序运行在以下系统的单元中：

序列选取单元，用于根据距离度计算选取出连接序列Sline；

序列发送单元，用于通过云服务器将Sline发送到客户端。

所述一种语义分析系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中。所述一种语义分析系统包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种语义分析方法及系统的示例，并不构成对一种语义分析方法及系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种语义分析系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种语义分析系统的控制中心，利用各种接口和线路连接整个一种语义分析系统的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种语义分析方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital,SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种语义分析方法，其特征在于，所述方法包括以下步骤：

S100，把用户在客户端输入的字符串Token传输到云服务器；

S500，根据距离度计算选取出连接序列Sline；

S600，云服务器将Sline发送到客户端；

其中，在S100中，把用户在客户端输入的字符串Token传输到云服务器的方法为：采集用户在客户端所输入的字符串记作Token，将字符串Token传输到云服务器；

在S300中，在云服务器中，将集合Wordset通过分词算法得到集合Paraset的方法为：在云服务器的数据库中获取集合Wordset，将集合Wordset中的每一个字符串数据分别通过分词算法转化为字符串数组，将由集合Wordset中各个字符串数据通过分词得到的多个字符串数组作为集合Paraset；

在S400中，在云服务器中，计算字符串Token在Paraset中元素的距离度的方法为：计算字符串Token在Paraset中各元素的多个连接序列的具体方法为，记集合Paraset各元素的数量为n，变量i为集合Paraset中元素的序号，i∈[1,n]，字符串数组Paraset(i)表示集合Paraset中序号为i的元素，记变量j表示字符串数组Paraset(i)中字符串的序号，m为字符串数组Paraset(i)中包含的字符串的数量，word(i,j)表示集合Paraset中序号为i的元素Paraset(i)中的序号为j的字符串，记函数Vec()为通过词向量方法将输入的字符串进行向量化得到词向量的函数，通过函数Vec()所得的词向量的维度均相同，记通过函数Vec()所得的词向量的维度为k，变量t表示通过函数Vec()所得的词向量的第t维的序号，t∈[1,k]，则Vec(Token)表示通过词向量方法将Token进行向量化得到的词向量，记vt即表示Vec(Token),Vec(word(i,j))表示通过词向量方法将word(i,j)进行向量化得到的词向量，记vw即表示Vec(word(i,j))，vt[t]表示Vec(Token)的第t维数值，vw[t]表示Vec(word(i,j))的第t维数值，记词向量Vec(Token)与Vec(word(i,j))之间的距离度为d(i,j)，计算词向量Vec(Token)与Vec(word(i,j))之间的距离度d(i,j)的公式为：

则记函数D()为输入两个向量计算两个向量之间的距离度的函数，词向量Vec(Token)与Vec(word(i,j))之间的距离度为d(i,j)，通过函数D()表示为:

d(i,j)=D(Vec(Token),Vec(word(i,j))),

或者d(i,j)=D(vt,vw),

或者D(vt,vw)=D(Vec(Token),Vec(word(i,j)))；

在S500中，根据距离度计算选取出连接序列Sline的方法为：计算Vec(Token)分别与集合Paraset中序号为i的元素Paraset(i)中的各个字符串通过函数Vec()进行向量化得到的各个词向量的距离记作整体距离度Dis(vt, Paraset(i))，整体距离度函数Dis()表示计算一个词向量与集合Paraset中序号为i的元素Paraset(i)中的各个字符串通过函数Vec()进行向量化得到的各个词向量的整体距离度，Dis(vt, Paraset(i)) 整体距离度的计算公式为：

2.根据权利要求1所述的一种语义分析方法，其特征在于，在S200中，将文件通过文字识别得到的字符串数据作为集合Wordset传输到云服务器的方法为：将印有文字的纸张作为文件，将多个文件分别通过文字识别技术识别得到的多个字符串数据作为集合Wordset，将集合Wordset传输到云服务器，在云服务器的数据库中进行储存。

3.根据权利要求1所述的一种语义分析方法，其特征在于，在S600中，云服务器将Sline发送到客户端的方法为：将连接序列Sline发送到客户端，客户端按照Sline中对Paraset中的序号的排序进行显示。

4.一种语义分析系统，其特征在于，所述一种语义分析系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1中的一种语义分析方法中的步骤，所述一种语义分析系统运行于桌上型计算机、笔记本、移动电话、掌上电脑或云端数据中心的计算设备中，可运行的系统包括处理器、存储器、服务器集群。