CN113268979A

CN113268979A - 基于双词典模型的人工智能文本分析方法及相关设备

Info

Publication number: CN113268979A
Application number: CN202110667892.0A
Authority: CN
Inventors: 邓柯; 徐嘉泽
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-04-30
Filing date: 2021-06-16
Publication date: 2021-08-17
Anticipated expiration: 2041-06-16
Also published as: CN113268979B

Abstract

本申请提供一种基于双词典模型的人工智能文本分析方法及相关设备，其中，所述方法包括：获取预先构建的双词典模型，双词典模型包括初始词语词典、初始超模式词典和初始参数体系；从初始超模式词典中抽取超模式，获得超模式序列；根据超模式序列抽取词语，获得词语序列和词语序列的序列W；基于序列W，获得未分词文本片段，确定未分词文本片段的多个隐状态，计算每个隐状态的生成概率；选取最大的生成概率的值对应的隐状态，记为目标文本分析结果。本申请可以辅助进行文本分析，提高文本分析结果的准确性。

Description

基于双词典模型的人工智能文本分析方法及相关设备

技术领域

本申请涉及文本分析领域，特别是指一种基于双词典模型的人工智能文本分析方法及相关设备。

背景技术

中文自然语言理解是人工智能的重要研究问题和方向。在特定领域的中文文本分析中，如古文、医疗电子病历、散文、诗歌等，由于标注数据集通常难以获得，文本分析结果往往忽略了文本数据的句法和语义结构信息。

发明内容

鉴于以上内容，有必要提供一种基于双词典模型的人工智能文本分析方法及相关设备，可以辅助进行文本分析，提高文本分析结果的准确性。

所述基于双词典模型的人工智能文本分析方法，包括：获取预先构建的双词典模型，所述双词典模型包括初始词语词典

初始超模式词典

和初始参数体系(γ，θ_w|c)；从所述初始超模式词典

中抽取超模式，获得超模式序列P；根据所述超模式序列P抽取词语w，获得词语序列W_i和所述词语序列W_i的序列W，其中，所述词语

基于所述序列W，获得未分词文本片段T，确定所述未分词文本片段T的多个隐状态H，计算每个所述隐状态H的生成概率

选取最大的所述生成概率

的值对应的隐状态H，记为目标文本分析结果。

可选地，所述方法还包括：基于所述初始参数体系(γ，θ_w|c)计算更新的参数体系(γ，θ_w，θ_c|w)；设定所述更新的参数体系(γ，θ_w，θ_c|w)的先验分布，以及所述更新的参数体系(γ，θ_w，θ_c|w)的后验分布，其中，

表示词语w的抽样概率分布，

表示一组抽样概率分布，

表示给定词语w的情况下词语类别的条件分布，θ_c|w表示给定词语w的情况下词语类别c的抽样概率。

可选地，所述双词典模型还包括：由目标文本中所有字符a_l组成的字符集合

1≤l≤L，

所述初始词语词典

其中，

1≤n≤N，i，

表示正整数；w_n是由所述集合

中的字符组成的词语；目标文本中词语类别的集合

1≤k≤K，其中c_k表示命名实体的类别，c₀表示区别于所述命名实体的背景词的类别，

初始超模式词典

其中p_m＝t₁|t₂|…|t_l，1≤m≤M，p_m表示由形符t_j组成的超模式，所述形符

j表示正整数；e表示终止符；所述初始参数体系(γ，θ_w|c)，其中

γ表示超模式的抽样概率分布，其中γ_p表示超模式p的抽样概率；

表示一组抽样概率分布，其中

表示给定词语类别c的情况下词语的抽样概率分布，θ_w|c表示给定词语类别c的情况下词语w的抽样概率。

可选地，所述从初始超模式词典

中抽取超模式，获得超模式序列P包括：按照每个超模式的抽样概率γ_p，对所述初始超模式词典

中的超模式P_i进行随机有放回抽样，直至抽取到终止符e；设定所述超模式序列P＝P₁|P₂|…|P_n|e，具中，超模式

可选地，所述方法还包括：计算所述超模式序列P的抽样概率

其中γ_e表示终止符e的抽样概率。

可选地，所述根据所述超模式序列P抽取词语w，获得词语序列W_i和所述词语序列W_i的序列W包括：确定超模式P_i中每个形符t_ij的类别，其中，j表示正整数；当形符

时，令w_ij＝t_ij；当形符

时，根据抽样概率

从所述初始词语词典

中抽取词语w_ij；获得所述序列

和所述序列W＝W₁|W₂|…|W_n。

可选地，所述方法还包括：计算给定所述超模式序列P的情况下的所述序列W_i的抽样概率

其中，

并且当

时，

当

时，

表示

时w_ij的抽样概率；计算给定所述超模式序列P的情况下的所述序列W的抽样概率

可选地，所述基于所述序列W，获得未分词文本片段T包括：将所述序列W中的分隔符去掉，获得未分词文本片段T＝T₁T₂…T_n，其中

将H＝(P，W)记为所述未分词文本片段T的隐状态，所述隐状态H的生成概率

的计算公式为：

其中，

表示所述隐状态H中超模式p出现的次数，

表示所述隐状态H中类别词语对(c，w)出现的次数。

所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现所述基于双词典模型的人工智能文本分析方法。

所述计算机装置包括存储器和至少一个处理器，所述存储器中存储有至少一个指令，所述至少一个指令被所述至少一个处理器执行时实现所述基于双词典模型的人工智能文本分析方法。

相较于现有技术，所述基于双词典模型的人工智能文本分析方法及相关设备，可以基于双词典模型，辅助进行文本分析，提高文本分析结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的基于双词典模型的人工智能文本分析方法的流程图。

图2是本申请实施例提供的计算机装置的架构图。

图3A是本申请实施例提供的对目标文本中的词语进行分割的示例图。

图3B是本申请实施例提供的用不同的标记区分目标文本中的命名实体的示例图。

图3C是本申请实施例提供的长度不超过超模式中形符的最大长度阈值的超模式及其频率的示例图。

图3D是本申请实施例提供的频率低于超模式出现的最低频率阈值的超模式的示例图。

图3E是本申请实施例提供的频率不低于超模式出现的最低频率阈值的超模式的示例图。

图4是本申请实施例提供的文本分析示意图。

主要元件符号说明

计算机装置	3
		处理器	32
存储器	31
		文本分析系统	30

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

参阅图1所示，为本申请较佳实施例的基于双词典模型的人工智能文本分析方法的流程图。

在本实施例中，所述基于双词典模型的人工智能文本分析方法可以应用于计算机装置中，对于需要进行文本分析的计算机装置，可以直接在计算机装置上集成本申请的方法所提供的用于文本分析的功能，或者以软件开发工具包(Software Development Kit，SDK)的形式运行在计算机装置上。

如图1所示，所述基于双词典模型的人工智能文本分析方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S1、计算机装置获取预先构建的双词典模型，所述双词典模型包括初始词语词典

初始超模式(Meta-pattern)词典

和初始参数体系(γ，θ_w|c)。

在一个实施例中，计算机装置对所述双词典模型的构建包括：获取目标文本；构建所述目标文本的双词典模型，所述双词典模型包括初始词语词典

与初始超模式词典

及初始参数体系(γ，θ_w|c)。

在一个实施例中，计算机装置可以接收用户输入的目标文本；所述目标文本可以是特定领域的中文文本，例如，古文、医疗电子病历、散文、诗歌等。

在一个实施例中，所述贝叶斯逻辑包括贝叶斯定理和贝叶斯统计，是一种概率论系统。

在一个实施例中，计算机装置对所述目标文本中的字符进行文本分割，获取所述目标文本中的每个字符a_l，获得所述目标文本中所有字符组成的字符集合

其中，1≤l≤L。

在一个实施例中，计算机装置根据所述目标文本中词语的先验信息，设定词语集合

所述目标文本中词语的先验信息，可以是预先保存在计算机装置中的已知词库，所述已知词库中包含所述目标文本中的词语，所述词语包括字符集合

中的字符组成的字符序列，例如，王安石、为、参知政事、趙普、為、太師等。需要说明的是，上述“趙”、“為”、“師”为繁体字，以举例说明目标文本中包括古文时所进行的分析。

在一个实施例中，计算机装置按照预设的第一规则获得词语集合

所述预设的第一规则包括：设定

为词语中字符的最大长度阈值，

为词语出现的最低频率阈值，利用TopWORDS算法对所述目标文本进行文本挖掘，提取所述目标文本中长度不超过所述

且频率不低于所述

的词语，获得所述词语集合

所述TopWORDS算法是一个无监督的中文文本分析工具，它可以在文本分割的同时实现高效的词语发现，但有一定的局限性：(1)学习过程中只使用字符序列计数信息；(2)不能自动区分词语类别；(3)遗漏低频词语。例如，设定

那么利用TopWORDS算法对目标文本“AABBABCCABCD”中的词语进行提取后，获得的词语集合

C(3)，AB(3)，BC(2)，ABC(2)}，其中，括号中的数字代表该词语的出现频率。

在一个实施例中，计算机装置根据所述目标文本中词语类别的先验信息，设定目标文本中词语类别的集合为

1≤k≤K，所述目标文本中的每个词语都属于特定的词语类别，所述词语类别包括命名实体的类别和区别于所述命名实体的类别的背景词的类别，其中c_k表示命名实体的类别，c₀表示区别于所述命名实体的背景词的类别。所述目标文本中词语类别的先验信息，可以是预先保存在计算机装置中的已知词语类别库，所述已知词语类别库中包含所有所述目标文本中的词语类别。所述命名实体包括人名、官职、地名以及其他所有以名称为标识的实体，例如，趙普、王安石、太師、参知政事等；所述背景词包括所有区别于命名实体的词语，例如，趙、普、為、太、師、王、安、石、为、参、知、政、事等。

在一个实施例中，计算机装置按照预设的第二规则获得词语集合

所述预设的第二规则包括：利用预先训练的弱分类器对所述目标文本中长度不超过所述

并且频率不低于所述

的词语进行提取；确定先验分类概率π_c|w，其中，c表示所述目标文本中的词语类别，w表示所述弱分类器提取的词语，π_c|w表示给定词语w的情况下，词语类别c的先验分类概率，所述先验分类概率π_c|w表示一个条件概率(例如，词语“趙普”是一个“人名”的概率)；及选择所述弱分类器提取的词语中，所述先验分类概率π_c|w超过预设的分类阈值(例如，0.5)的词语，获得所述词语集合

所述预先训练的弱分类器是一个词语分类器(或文本分类器)，可以利用预先保存在计算机装置中的已知词库中的词语训练模型，获得所述弱分类器，所述弱分类器的分类准确率在60％至80％。

在一个实施例中，计算机装置整合所述字符集合

词语集合

词语集合

词语集合

获得初始词语词典

所述初始词语词典

其中，

1≤n≤N，i，

表示正整数；w_n是由所述集合

中字符组成的词语。

在一个实施例中，所述初始超模式词典

其中，e表示终止符，

1≤m≤M，p_m表示由形符(Token)t_j组成的超模式，“|”表示分隔符，所述形符

其中，j表示正整数。举例而言，所述形符t_j可以是人名(Name，N)、官职(Office title，O)、背景词(Background，B)、為(视作

中字符)、为(视作

中字符)等，那么所述超模式p_m可以是N、O、B、N为O、N為O等。所述终止符e表示对所述目标文本中的超模式进行提取时的停止准则，当抽取到所述终止符e时，停止抽取超模式。例如，考虑基于双词典模型的文本片段“趙普為太師”的生成过程时，首先抽取到超模式“N為O”和终止符得到超模式序列，之后根据抽取到的超模式序列抽取词语，获得词语序列，最后得到词语序列对应的文本片段“趙普為太師”。

在一个实施例中，计算机装置根据所述目标文本中超模式的先验信息，设定超模式集合

所述目标文本中超模式的先验信息，可以是预先保存在计算机装置中的已知超模式库，所述已知超模式库中包含所有所述目标文本中的超模式。

在一个实施例中，计算机装置按照预设的第三规则获得超模式集合

所述预设的第三规则包括：例如图3A至图3E所示，基于所述初始词语词典

对所述目标文本中的词语进行识别和分割，并用不同的标记区分所述目标文本中词语置信度满足

的命名实体(例如图3B中利用粗体和斜体对人名和官职进行区分：N、O，还可以用不同的颜色进行区分)，其中

为预先设定的置信度阈值(例如，0.85)；设定

为超模式中形符的最大长度阈值(例如，3)，

为超模式出现的最低频率阈值(例如，2)，按顺序扫描(例如，利用文字识别算法或图像识别算法，对具有相同标记特征的文字进行依序扫描识别)并提取所述目标文本中长度不超过所述

并且频率不低于所述

的相邻的被标记的命名实体(例如图3D中超模式“王N为”的频率为1，低于超模式出现的最低频率阈值2，不对其进行提取；例如图3E中超模式“N为O”的频率为2，不低于超模式出现的最低频率阈值2，对其进行提取)，整合该过程提取到的超模式，获得所述超模式集合

在一个实施例中，计算机装置整合所述终止符e、词语类别集合

超模式集合

超模式集合

获得所述初始超模式词典

所述初始超模式词典

在一个实施例中，计算机装置对初始参数体系(γ，θ_w|c)的构建包括：获取所述初始词语词典

中的词语在所述目标文本中的计数词频θ_w；根据所述计数词频θ_w和所述先验分类概率π_c|w，确定给定词语类别c的情况下，所述初始词语词典

中词语的抽样概率分布的初始值

其中

表示给定词语类别c的情况下词语的抽样概率分布，θ_w|c∝θ_w·π_c|w，θ_w|c表示给定词语类别c的情况下词语w的抽样概率(例如，给定词语类别为“人名”的情况下，词语“趙普”的抽样概率)；

中的超模式在所述目标文本中的抽样概率，获得所述

中超模式的抽样概率分布的初始值γ，其中，

γ_p表示超模式p的抽样概率(例如，超模式“N為O”的抽样概率为0.01)。

步骤S2、计算机装置从所述初始超模式词典

中抽取超模式，获得超模式序列P。

在一个实施例中，计算机装置按照每个超模式的抽样概率γ_p，从所述初始超模式词典

中有放回地随机抽取超模式P_i，直至抽取到终止符e；设定所述超模式序列P＝P₁|P₂|…|P_n|e，其中，超模式

在一个实施例中，计算机装置计算所述P的抽样概率

其中γ_e表示终止符e的抽样概率。

步骤S3、计算机装置根据所述超模式序列P抽取词语w，获得词语序列W_i和所述词语序列W_i的序列W，其中，所述词语

在一个实施例中，计算机装置确定超模式Pi中每个形符t_ij的类别；当形符

时，令w_ij＝t_ij；当形符

时，根据抽样概率

从所述初始词语词典

中抽取词语w_ij；获得所述序列

和所述序列W＝W₁|W₂|…|W_n。

在一个实施例中，计算机装置计算给定所述P的情况下的所述W_i的抽样概率

其中，

表示示性函数(Indicator Function)，当“{ }”中的条件满足时，

取值为1，否则

取值为0，

并且当

时，

当

时，

表示

时w_ij的抽样概率，当w_ij＝t_ij时，w_ij的抽样概率为1；当w_ij≠t_ij时，w_ij的抽样概率为0；

计算给定所述P的情况下的所述W的抽样概率

例如，假设给定如下表1的双词典模型，

表1

那么，例如图4所示，抽取到的超模式序列P₃：N為O|e，其中，超模式“N為O”种包含3个形符，分别为“N”、“為”和“O”，形符“N”属于词语类别的集合

根据θ_w|(c＝N)对应抽取的词语即“趙普”；形符“為”属于字符集合

对应抽取的词语即“為”；形符“O”属于词语类别的集合

根据θ_w|(c＝O)对应抽取的词语即“太師”；所以根据超模式序列P₃抽取到的词语序列W₃为：趙普|為|太師；

同样的，可以得到图4中

步骤S4、计算机装置基于所述序列W，获得未分词文本片段T，确定所述未分词文本片段T的多个隐状态H(Hidden State)，计算每个所述隐状态H的生成概率

在一个实施例中，计算机装置将所述序列W中的分隔符“|”去掉，获得未分词文本片段T＝T₁T₂…T_n，其中

例如，当所述序列W＝词语序列W₃：“趙普|為|太師”时，将其中的分隔符去掉，得到未分词文本片段：趙普為太師。

在一个实施例中，将H＝(P，W)记为所述未分词文本片段T的隐状态，所述隐状态H的生成概率(即抽样概率)

的计算公式为：

其中，

表示所述隐状态H中超模式p出现的次数，

表示所述隐状态H中类别词语对(Category-Word Pair)(c，w)(例如，“人名”“趙普”)出现的次数。举例而言，例如图4所示，隐状态H₁＝(P₁，W₁)的生成概率

隐状态H₃＝(P₃，W₃)的生成概率

需要说明的是，在实际应用中，隐状态H是观测不到的，是缺失数据，只有未分词文本片段T是可观测数据。可以通过不同的隐状态H来生成不同的未分词文本片段T，将

记为可以生成未分词文本片段T的所有隐状态的集合，例如图4所示，未分词文本片段“趙普為太師”的所有隐状态的集合

那么，在双词典模型的框架下，未分词文本片段T的生成概率为

例如图4所示，未分词文本片段“趙普為太師”的生成概率为

在一个实施例中，在给定未分词文本片段T的条件下，隐状态H的条件分布为

其中，当隐状态H属于集合

时，

取值为1；当隐状态H不属于集合

时，

取值为0。

步骤S5、计算机装置选取最大的所述生成概率

的值对应的隐状态H，记为目标文本分析结果。

在一个实施例中，例如图4所示，最大的所述生成概率

的值对应的隐状态H为H₃＝(P₃，W₃)，所以目标文本分析结果为：趙普|為|太師，对应获得：“趙普”是N，“太師”是O，目标文本“趙普為太師”的分析结果是“N為O”。

步骤S6、计算机装置基于所述初始参数体系(γ，θ_w|c)计算更新的参数体系(γ，θ_w，θ_c|w)；设定所述更新的参数体系(γ，θ_w，θ_c|w)的先验分布(Prior Distribution)，以及所述更新的参数体系(γ，θ_w，θ_c|w)的后验分布(Posterior Distribution)。

在一个实施例中，所述基于所述初始参数体系(γ，θ_w|c)计算更新的参数体系(γ，θ_w，θ_c|w)包括：对一个词语类别

和一个超模式

定义

为词语类别c在超模式p中出现的次数。那么，在双词典模型中，词语类别c出现的频率为

其中，

词语w出现的频率为

给定词语w的情况下，词语类别c的频率为

令

表示词语的分布，令

表示一组词语类别的抽样概率分布，其中，

需要说明的是，当更新的参数体系(γ，θ_w，θ_c|w)满足限制条件：

时，两个参数体系可以互相转换，即存在一一映射。在一个实施例中，计算机装置可以根据更新的参数体系(γ，θ_w，θ_c|w)，计算

得到所述初始参数体系(γ，θ_w|c)。

在一个实施例中，所述设定所述更新的参数体系(γ，θ_w，θ_c|w)的先验分布，以及所述更新的参数体系(γ，θ_w，θ_c|w)的后验分布包括：计算机装置对所述双词典模型进行贝叶斯建模，根据狄利克雷分布Dir(α，F)设定所述更新的参数体系(γ，θ_w，θ_c|w)的先验分布，所述狄利克雷分布的表达式为

设定

设定强度超参数为(α_γ，α_w，α_·|w)＝(αN，αN，α)，获得(γ，θ_w，θ_c|w)的先验分布

设

为目标文本中的B个未分词文本片段，那么更新的参数体系(γ，θ_w，θ_c|w)的后验分布为：

需要说明的是，可以通过求解参数的后验众数(Posterior Mode)来给出参数估计的结果，也可以通过从后验分布中抽样，来进行统计推断和分析。

上述图1详细介绍了本申请的基于双词典模型的人工智能文本分析方法，下面结合图2，对实现所述基于双词典模型的人工智能文本分析方法的硬件装置架构进行介绍。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

参阅图2所示，为本申请较佳实施例提供的计算机装置的结构示意图。在本申请较佳实施例中，所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解，图2示出的计算机装置的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机装置3包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。

需要说明的是，所述计算机装置3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如双词典模型、安装在所述计算机装置3中的文本分析系统30等，并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。

在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机装置3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机装置3的各种功能和处理数据，例如执行文本分析的功能。

在一些实施例中，所述文本分析系统30运行于计算机装置3中。所述文本分析系统30可以包括多个由程序代码段所组成的功能模块。所述文本分析系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中，并由至少一个处理器32所执行，以实现文本分析功能(详见图1描述)。

本实施例中，所述文本分析系统30根据其所执行的功能，可以被划分为多个功能模块。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。

尽管未示出，所述计算机装置3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在进一步的实施例中，结合图2，所述至少一个处理器32可执行所述计算机装置3的操作系统以及安装的各类应用程序(如所述的文本分析系统30)、程序代码等，例如，上述的各个模块。

在本申请的一个实施例中，所述存储器31存储一个或多个指令(即至少一个指令)，所述至少一个指令被所述至少一个处理器32所执行以实现图1所示的文本分析的目的。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后所应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照以上较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。