CN113268979A - 基于双词典模型的人工智能文本分析方法及相关设备 - Google Patents

基于双词典模型的人工智能文本分析方法及相关设备 Download PDF

Info

Publication number
CN113268979A
CN113268979A CN202110667892.0A CN202110667892A CN113268979A CN 113268979 A CN113268979 A CN 113268979A CN 202110667892 A CN202110667892 A CN 202110667892A CN 113268979 A CN113268979 A CN 113268979A
Authority
CN
China
Prior art keywords
hyper
word
sequence
dictionary
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110667892.0A
Other languages
English (en)
Other versions
CN113268979B (zh
Inventor
邓柯
徐嘉泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Publication of CN113268979A publication Critical patent/CN113268979A/zh
Application granted granted Critical
Publication of CN113268979B publication Critical patent/CN113268979B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种基于双词典模型的人工智能文本分析方法及相关设备,其中,所述方法包括:获取预先构建的双词典模型,双词典模型包括初始词语词典、初始超模式词典和初始参数体系;从初始超模式词典中抽取超模式,获得超模式序列;根据超模式序列抽取词语,获得词语序列和词语序列的序列W;基于序列W,获得未分词文本片段,确定未分词文本片段的多个隐状态,计算每个隐状态的生成概率;选取最大的生成概率的值对应的隐状态,记为目标文本分析结果。本申请可以辅助进行文本分析,提高文本分析结果的准确性。

Description

基于双词典模型的人工智能文本分析方法及相关设备
技术领域
本申请涉及文本分析领域,特别是指一种基于双词典模型的人工智能文本分析方法及相关设备。
背景技术
中文自然语言理解是人工智能的重要研究问题和方向。在特定领域的中文文本分析中,如古文、医疗电子病历、散文、诗歌等,由于标注数据集通常难以获得,文本分析结果往往忽略了文本数据的句法和语义结构信息。
发明内容
鉴于以上内容,有必要提供一种基于双词典模型的人工智能文本分析方法及相关设备,可以辅助进行文本分析,提高文本分析结果的准确性。
所述基于双词典模型的人工智能文本分析方法,包括:获取预先构建的双词典模型,所述双词典模型包括初始词语词典
Figure BDA0003118027400000011
初始超模式词典
Figure BDA0003118027400000012
和初始参数体系(γ,θw|c);从所述初始超模式词典
Figure BDA0003118027400000013
中抽取超模式,获得超模式序列P;根据所述超模式序列P抽取词语w,获得词语序列Wi和所述词语序列Wi的序列W,其中,所述词语
Figure BDA0003118027400000014
基于所述序列W,获得未分词文本片段T,确定所述未分词文本片段T的多个隐状态H,计算每个所述隐状态H的生成概率
Figure BDA00031180274000000115
选取最大的所述生成概率
Figure BDA00031180274000000116
的值对应的隐状态H,记为目标文本分析结果。
可选地,所述方法还包括:基于所述初始参数体系(γ,θw|c)计算更新的参数体系(γ,θw,θc|w);设定所述更新的参数体系(γ,θw,θc|w)的先验分布,以及所述更新的参数体系(γ,θw,θc|w)的后验分布,其中,
Figure BDA0003118027400000015
表示词语w的抽样概率分布,
Figure BDA0003118027400000016
表示一组抽样概率分布,
Figure BDA0003118027400000017
表示给定词语w的情况下词语类别的条件分布,θc|w表示给定词语w的情况下词语类别c的抽样概率。
可选地,所述双词典模型还包括:由目标文本中所有字符al组成的字符集合
Figure BDA0003118027400000018
1≤l≤L,
Figure BDA0003118027400000019
所述初始词语词典
Figure BDA00031180274000000110
Figure BDA00031180274000000111
其中,
Figure BDA00031180274000000112
1≤n≤N,i,
Figure BDA00031180274000000117
表示正整数;wn是由所述集合
Figure BDA00031180274000000113
中的字符组成的词语;目标文本中词语类别的集合
Figure BDA00031180274000000114
Figure BDA0003118027400000021
1≤k≤K,其中ck表示命名实体的类别,c0表示区别于所述命名实体的背景词的类别,
Figure BDA0003118027400000022
初始超模式词典
Figure BDA0003118027400000023
Figure BDA0003118027400000024
其中pm=t1|t2|…|tl,1≤m≤M,pm表示由形符tj组成的超模式,所述形符
Figure BDA0003118027400000025
j表示正整数;e表示终止符;所述初始参数体系(γ,θw|c),其中
Figure BDA0003118027400000026
γ表示超模式的抽样概率分布,其中γp表示超模式p的抽样概率;
Figure BDA0003118027400000027
表示一组抽样概率分布,其中
Figure BDA0003118027400000028
Figure BDA0003118027400000029
表示给定词语类别c的情况下词语的抽样概率分布,θw|c表示给定词语类别c的情况下词语w的抽样概率。
可选地,所述从初始超模式词典
Figure BDA00031180274000000210
中抽取超模式,获得超模式序列P包括:按照每个超模式的抽样概率γp,对所述初始超模式词典
Figure BDA00031180274000000211
中的超模式Pi进行随机有放回抽样,直至抽取到终止符e;设定所述超模式序列P=P1|P2|…|Pn|e,具中,超模式
Figure BDA00031180274000000212
可选地,所述方法还包括:计算所述超模式序列P的抽样概率
Figure BDA00031180274000000213
Figure BDA00031180274000000214
其中γe表示终止符e的抽样概率。
可选地,所述根据所述超模式序列P抽取词语w,获得词语序列Wi和所述词语序列Wi的序列W包括:确定超模式Pi中每个形符tij的类别,其中,j表示正整数;当形符
Figure BDA00031180274000000215
时,令wij=tij;当形符
Figure BDA00031180274000000216
时,根据抽样概率
Figure BDA00031180274000000217
从所述初始词语词典
Figure BDA00031180274000000218
中抽取词语wij;获得所述序列
Figure BDA00031180274000000219
和所述序列W=W1|W2|…|Wn
可选地,所述方法还包括:计算给定所述超模式序列P的情况下的所述序列Wi的抽样概率
Figure BDA00031180274000000220
Figure BDA00031180274000000221
其中,
Figure BDA00031180274000000222
并且当
Figure BDA00031180274000000223
时,
Figure BDA00031180274000000224
Figure BDA00031180274000000225
Figure BDA00031180274000000226
时,
Figure BDA00031180274000000227
表示
Figure BDA00031180274000000228
时wij的抽样概率;计算给定所述超模式序列P的情况下的所述序列W的抽样概率
Figure BDA00031180274000000229
可选地,所述基于所述序列W,获得未分词文本片段T包括:将所述序列W中的分隔符去掉,获得未分词文本片段T=T1T2…Tn,其中
Figure BDA00031180274000000230
Figure BDA00031180274000000231
将H=(P,W)记为所述未分词文本片段T的隐状态,所述隐状态H的生成概率
Figure BDA00031180274000000232
的计算公式为:
Figure BDA00031180274000000233
Figure BDA00031180274000000234
Figure BDA00031180274000000235
其中,
Figure BDA00031180274000000236
表示所述隐状态H中超模式p出现的次数,
Figure BDA0003118027400000031
表示所述隐状态H中类别词语对(c,w)出现的次数。
所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述基于双词典模型的人工智能文本分析方法。
所述计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现所述基于双词典模型的人工智能文本分析方法。
相较于现有技术,所述基于双词典模型的人工智能文本分析方法及相关设备,可以基于双词典模型,辅助进行文本分析,提高文本分析结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的基于双词典模型的人工智能文本分析方法的流程图。
图2是本申请实施例提供的计算机装置的架构图。
图3A是本申请实施例提供的对目标文本中的词语进行分割的示例图。
图3B是本申请实施例提供的用不同的标记区分目标文本中的命名实体的示例图。
图3C是本申请实施例提供的长度不超过超模式中形符的最大长度阈值的超模式及其频率的示例图。
图3D是本申请实施例提供的频率低于超模式出现的最低频率阈值的超模式的示例图。
图3E是本申请实施例提供的频率不低于超模式出现的最低频率阈值的超模式的示例图。
图4是本申请实施例提供的文本分析示意图。
主要元件符号说明
计算机装置 3
处理器 32
存储器 31
文本分析系统 30
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
参阅图1所示,为本申请较佳实施例的基于双词典模型的人工智能文本分析方法的流程图。
在本实施例中,所述基于双词典模型的人工智能文本分析方法可以应用于计算机装置中,对于需要进行文本分析的计算机装置,可以直接在计算机装置上集成本申请的方法所提供的用于文本分析的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在计算机装置上。
如图1所示,所述基于双词典模型的人工智能文本分析方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S1、计算机装置获取预先构建的双词典模型,所述双词典模型包括初始词语词典
Figure BDA0003118027400000041
初始超模式(Meta-pattern)词典
Figure BDA0003118027400000042
和初始参数体系(γ,θw|c)。
在一个实施例中,计算机装置对所述双词典模型的构建包括:获取目标文本;构建所述目标文本的双词典模型,所述双词典模型包括初始词语词典
Figure BDA0003118027400000043
与初始超模式词典
Figure BDA0003118027400000044
及初始参数体系(γ,θw|c)。
在一个实施例中,计算机装置可以接收用户输入的目标文本;所述目标文本可以是特定领域的中文文本,例如,古文、医疗电子病历、散文、诗歌等。
在一个实施例中,所述贝叶斯逻辑包括贝叶斯定理和贝叶斯统计,是一种概率论系统。
在一个实施例中,计算机装置对所述目标文本中的字符进行文本分割,获取所述目标文本中的每个字符al,获得所述目标文本中所有字符组成的字符集合
Figure BDA0003118027400000045
其中,1≤l≤L。
在一个实施例中,计算机装置根据所述目标文本中词语的先验信息,设定词语集合
Figure BDA0003118027400000051
所述目标文本中词语的先验信息,可以是预先保存在计算机装置中的已知词库,所述已知词库中包含所述目标文本中的词语,所述词语包括字符集合
Figure BDA0003118027400000052
中的字符组成的字符序列,例如,王安石、为、参知政事、趙普、為、太師等。需要说明的是,上述“趙”、“為”、“師”为繁体字,以举例说明目标文本中包括古文时所进行的分析。
在一个实施例中,计算机装置按照预设的第一规则获得词语集合
Figure BDA0003118027400000053
所述预设的第一规则包括:设定
Figure BDA0003118027400000054
为词语中字符的最大长度阈值,
Figure BDA0003118027400000055
为词语出现的最低频率阈值,利用TopWORDS算法对所述目标文本进行文本挖掘,提取所述目标文本中长度不超过所述
Figure BDA0003118027400000056
且频率不低于所述
Figure BDA0003118027400000057
的词语,获得所述词语集合
Figure BDA0003118027400000058
所述TopWORDS算法是一个无监督的中文文本分析工具,它可以在文本分割的同时实现高效的词语发现,但有一定的局限性:(1)学习过程中只使用字符序列计数信息;(2)不能自动区分词语类别;(3)遗漏低频词语。例如,设定
Figure BDA0003118027400000059
那么利用TopWORDS算法对目标文本“AABBABCCABCD”中的词语进行提取后,获得的词语集合
Figure BDA00031180274000000510
C(3),AB(3),BC(2),ABC(2)},其中,括号中的数字代表该词语的出现频率。
在一个实施例中,计算机装置根据所述目标文本中词语类别的先验信息,设定目标文本中词语类别的集合为
Figure BDA00031180274000000511
1≤k≤K,所述目标文本中的每个词语都属于特定的词语类别,所述词语类别包括命名实体的类别和区别于所述命名实体的类别的背景词的类别,其中ck表示命名实体的类别,c0表示区别于所述命名实体的背景词的类别。所述目标文本中词语类别的先验信息,可以是预先保存在计算机装置中的已知词语类别库,所述已知词语类别库中包含所有所述目标文本中的词语类别。所述命名实体包括人名、官职、地名以及其他所有以名称为标识的实体,例如,趙普、王安石、太師、参知政事等;所述背景词包括所有区别于命名实体的词语,例如,趙、普、為、太、師、王、安、石、为、参、知、政、事等。
在一个实施例中,计算机装置按照预设的第二规则获得词语集合
Figure BDA00031180274000000512
所述预设的第二规则包括:利用预先训练的弱分类器对所述目标文本中长度不超过所述
Figure BDA00031180274000000513
并且频率不低于所述
Figure BDA00031180274000000514
的词语进行提取;确定先验分类概率πc|w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc|w表示给定词语w的情况下,词语类别c的先验分类概率,所述先验分类概率πc|w表示一个条件概率(例如,词语“趙普”是一个“人名”的概率);及选择所述弱分类器提取的词语中,所述先验分类概率πc|w超过预设的分类阈值(例如,0.5)的词语,获得所述词语集合
Figure BDA00031180274000000515
所述预先训练的弱分类器是一个词语分类器(或文本分类器),可以利用预先保存在计算机装置中的已知词库中的词语训练模型,获得所述弱分类器,所述弱分类器的分类准确率在60%至80%。
在一个实施例中,计算机装置整合所述字符集合
Figure BDA0003118027400000061
词语集合
Figure BDA0003118027400000062
词语集合
Figure BDA00031180274000000623
词语集合
Figure BDA0003118027400000063
获得初始词语词典
Figure BDA0003118027400000064
所述初始词语词典
Figure BDA0003118027400000065
Figure BDA0003118027400000066
其中,
Figure BDA0003118027400000067
1≤n≤N,i,
Figure BDA0003118027400000068
表示正整数;wn是由所述集合
Figure BDA0003118027400000069
中字符组成的词语。
在一个实施例中,所述初始超模式词典
Figure BDA00031180274000000610
其中,e表示终止符,
Figure BDA00031180274000000624
1≤m≤M,pm表示由形符(Token)tj组成的超模式,“|”表示分隔符,所述形符
Figure BDA00031180274000000611
其中,j表示正整数。举例而言,所述形符tj可以是人名(Name,N)、官职(Office title,O)、背景词(Background,B)、為(视作
Figure BDA00031180274000000612
中字符)、为(视作
Figure BDA00031180274000000613
中字符)等,那么所述超模式pm可以是N、O、B、N为O、N為O等。所述终止符e表示对所述目标文本中的超模式进行提取时的停止准则,当抽取到所述终止符e时,停止抽取超模式。例如,考虑基于双词典模型的文本片段“趙普為太師”的生成过程时,首先抽取到超模式“N為O”和终止符得到超模式序列,之后根据抽取到的超模式序列抽取词语,获得词语序列,最后得到词语序列对应的文本片段“趙普為太師”。
在一个实施例中,计算机装置根据所述目标文本中超模式的先验信息,设定超模式集合
Figure BDA00031180274000000614
所述目标文本中超模式的先验信息,可以是预先保存在计算机装置中的已知超模式库,所述已知超模式库中包含所有所述目标文本中的超模式。
在一个实施例中,计算机装置按照预设的第三规则获得超模式集合
Figure BDA00031180274000000615
所述预设的第三规则包括:例如图3A至图3E所示,基于所述初始词语词典
Figure BDA00031180274000000616
对所述目标文本中的词语进行识别和分割,并用不同的标记区分所述目标文本中词语置信度满足
Figure BDA00031180274000000617
的命名实体(例如图3B中利用粗体和斜体对人名和官职进行区分:N、O,还可以用不同的颜色进行区分),其中
Figure BDA00031180274000000618
为预先设定的置信度阈值(例如,0.85);设定
Figure BDA00031180274000000619
为超模式中形符的最大长度阈值(例如,3),
Figure BDA00031180274000000620
为超模式出现的最低频率阈值(例如,2),按顺序扫描(例如,利用文字识别算法或图像识别算法,对具有相同标记特征的文字进行依序扫描识别)并提取所述目标文本中长度不超过所述
Figure BDA00031180274000000621
并且频率不低于所述
Figure BDA00031180274000000622
的相邻的被标记的命名实体(例如图3D中超模式“王N为”的频率为1,低于超模式出现的最低频率阈值2,不对其进行提取;例如图3E中超模式“N为O”的频率为2,不低于超模式出现的最低频率阈值2,对其进行提取),整合该过程提取到的超模式,获得所述超模式集合
Figure BDA0003118027400000071
在一个实施例中,计算机装置整合所述终止符e、词语类别集合
Figure BDA0003118027400000072
超模式集合
Figure BDA0003118027400000073
超模式集合
Figure BDA0003118027400000074
获得所述初始超模式词典
Figure BDA0003118027400000075
所述初始超模式词典
Figure BDA0003118027400000076
在一个实施例中,计算机装置对初始参数体系(γ,θw|c)的构建包括:获取所述初始词语词典
Figure BDA0003118027400000077
中的词语在所述目标文本中的计数词频θw;根据所述计数词频θw和所述先验分类概率πc|w,确定给定词语类别c的情况下,所述初始词语词典
Figure BDA0003118027400000078
中词语的抽样概率分布的初始值
Figure BDA0003118027400000079
其中
Figure BDA00031180274000000710
Figure BDA00031180274000000711
表示给定词语类别c的情况下词语的抽样概率分布,θw|c∝θw·πc|w,θw|c表示给定词语类别c的情况下词语w的抽样概率(例如,给定词语类别为“人名”的情况下,词语“趙普”的抽样概率);
Figure BDA00031180274000000712
中的超模式在所述目标文本中的抽样概率,获得所述
Figure BDA00031180274000000713
中超模式的抽样概率分布的初始值γ,其中,
Figure BDA00031180274000000714
γp表示超模式p的抽样概率(例如,超模式“N為O”的抽样概率为0.01)。
步骤S2、计算机装置从所述初始超模式词典
Figure BDA00031180274000000715
中抽取超模式,获得超模式序列P。
在一个实施例中,计算机装置按照每个超模式的抽样概率γp,从所述初始超模式词典
Figure BDA00031180274000000716
中有放回地随机抽取超模式Pi,直至抽取到终止符e;设定所述超模式序列P=P1|P2|…|Pn|e,其中,超模式
Figure BDA00031180274000000717
在一个实施例中,计算机装置计算所述P的抽样概率
Figure BDA00031180274000000718
Figure BDA00031180274000000719
其中γe表示终止符e的抽样概率。
步骤S3、计算机装置根据所述超模式序列P抽取词语w,获得词语序列Wi和所述词语序列Wi的序列W,其中,所述词语
Figure BDA00031180274000000720
在一个实施例中,计算机装置确定超模式Pi中每个形符tij的类别;当形符
Figure BDA00031180274000000721
时,令wij=tij;当形符
Figure BDA00031180274000000722
时,根据抽样概率
Figure BDA00031180274000000723
从所述初始词语词典
Figure BDA00031180274000000724
中抽取词语wij;获得所述序列
Figure BDA00031180274000000725
和所述序列W=W1|W2|…|Wn
在一个实施例中,计算机装置计算给定所述P的情况下的所述Wi的抽样概率
Figure BDA00031180274000000726
其中,
Figure BDA00031180274000000727
表示示性函数(Indicator Function),当“{ }”中的条件满足时,
Figure BDA00031180274000000728
取值为1,否则
Figure BDA00031180274000000729
取值为0,
Figure BDA00031180274000000730
并且当
Figure BDA00031180274000000731
时,
Figure BDA00031180274000000732
Figure BDA0003118027400000081
Figure BDA0003118027400000082
时,
Figure BDA0003118027400000083
表示
Figure BDA0003118027400000084
时wij的抽样概率,当wij=tij时,wij的抽样概率为1;当wij≠tij时,wij的抽样概率为0;
Figure BDA0003118027400000085
计算给定所述P的情况下的所述W的抽样概率
Figure BDA00031180274000000820
Figure BDA0003118027400000086
例如,假设给定如下表1的双词典模型,
Figure BDA0003118027400000087
表1
那么,例如图4所示,抽取到的超模式序列P3:N為O|e,其中,超模式“N為O”种包含3个形符,分别为“N”、“為”和“O”,形符“N”属于词语类别的集合
Figure BDA0003118027400000088
根据θw|(c=N)对应抽取的词语即“趙普”;形符“為”属于字符集合
Figure BDA0003118027400000089
对应抽取的词语即“為”;形符“O”属于词语类别的集合
Figure BDA00031180274000000810
根据θw|(c=O)对应抽取的词语即“太師”;所以根据超模式序列P3抽取到的词语序列W3为:趙普|為|太師;
Figure BDA00031180274000000811
同样的,可以得到图4中
Figure BDA00031180274000000812
步骤S4、计算机装置基于所述序列W,获得未分词文本片段T,确定所述未分词文本片段T的多个隐状态H(Hidden State),计算每个所述隐状态H的生成概率
Figure BDA00031180274000000813
在一个实施例中,计算机装置将所述序列W中的分隔符“|”去掉,获得未分词文本片段T=T1T2…Tn,其中
Figure BDA00031180274000000814
例如,当所述序列W=词语序列W3:“趙普|為|太師”时,将其中的分隔符去掉,得到未分词文本片段:趙普為太師。
在一个实施例中,将H=(P,W)记为所述未分词文本片段T的隐状态,所述隐状态H的生成概率(即抽样概率)
Figure BDA00031180274000000815
的计算公式为:
Figure BDA00031180274000000816
Figure BDA00031180274000000817
其中,
Figure BDA00031180274000000818
表示所述隐状态H中超模式p出现的次数,
Figure BDA00031180274000000819
表示所述隐状态H中类别词语对(Category-Word Pair)(c,w)(例如,“人名”“趙普”)出现的次数。举例而言,例如图4所示,隐状态H1=(P1,W1)的生成概率
Figure BDA0003118027400000091
隐状态H3=(P3,W3)的生成概率
Figure BDA0003118027400000092
Figure BDA0003118027400000093
需要说明的是,在实际应用中,隐状态H是观测不到的,是缺失数据,只有未分词文本片段T是可观测数据。可以通过不同的隐状态H来生成不同的未分词文本片段T,将
Figure BDA00031180274000000924
记为可以生成未分词文本片段T的所有隐状态的集合,例如图4所示,未分词文本片段“趙普為太師”的所有隐状态的集合
Figure BDA00031180274000000925
Figure BDA00031180274000000926
那么,在双词典模型的框架下,未分词文本片段T的生成概率为
Figure BDA0003118027400000094
例如图4所示,未分词文本片段“趙普為太師”的生成概率为
Figure BDA0003118027400000095
在一个实施例中,在给定未分词文本片段T的条件下,隐状态H的条件分布为
Figure BDA0003118027400000096
其中,当隐状态H属于集合
Figure BDA00031180274000000927
时,
Figure BDA0003118027400000097
取值为1;当隐状态H不属于集合
Figure BDA0003118027400000098
时,
Figure BDA0003118027400000099
取值为0。
步骤S5、计算机装置选取最大的所述生成概率
Figure BDA00031180274000000910
的值对应的隐状态H,记为目标文本分析结果。
在一个实施例中,例如图4所示,最大的所述生成概率
Figure BDA00031180274000000928
的值对应的隐状态H为H3=(P3,W3),所以目标文本分析结果为:趙普|為|太師,对应获得:“趙普”是N,“太師”是O,目标文本“趙普為太師”的分析结果是“N為O”。
步骤S6、计算机装置基于所述初始参数体系(γ,θw|c)计算更新的参数体系(γ,θw,θc|w);设定所述更新的参数体系(γ,θw,θc|w)的先验分布(Prior Distribution),以及所述更新的参数体系(γ,θw,θc|w)的后验分布(Posterior Distribution)。
在一个实施例中,所述基于所述初始参数体系(γ,θw|c)计算更新的参数体系(γ,θw,θc|w)包括:对一个词语类别
Figure BDA00031180274000000911
和一个超模式
Figure BDA00031180274000000912
Figure BDA00031180274000000913
定义
Figure BDA00031180274000000914
为词语类别c在超模式p中出现的次数。那么,在双词典模型中,词语类别c出现的频率为
Figure BDA00031180274000000915
其中,
Figure BDA00031180274000000916
Figure BDA00031180274000000917
词语w出现的频率为
Figure BDA00031180274000000918
给定词语w的情况下,词语类别c的频率为
Figure BDA00031180274000000919
Figure BDA00031180274000000920
表示词语的分布,令
Figure BDA00031180274000000921
Figure BDA00031180274000000922
表示一组词语类别的抽样概率分布,其中,
Figure BDA00031180274000000923
表示给定词语w的情况下词语类别的条件分布,θc|w表示给定词语w的情况下词语类别c的抽样概率。
需要说明的是,当更新的参数体系(γ,θw,θc|w)满足限制条件:
Figure BDA0003118027400000101
Figure BDA0003118027400000102
时,两个参数体系可以互相转换,即存在一一映射。在一个实施例中,计算机装置可以根据更新的参数体系(γ,θw,θc|w),计算
Figure BDA0003118027400000103
Figure BDA0003118027400000104
得到所述初始参数体系(γ,θw|c)。
在一个实施例中,所述设定所述更新的参数体系(γ,θw,θc|w)的先验分布,以及所述更新的参数体系(γ,θw,θc|w)的后验分布包括:计算机装置对所述双词典模型进行贝叶斯建模,根据狄利克雷分布Dir(α,F)设定所述更新的参数体系(γ,θw,θc|w)的先验分布,所述狄利克雷分布的表达式为
Figure BDA0003118027400000105
其中,α>0表示强度(Magnitude),F=(F1,...,Fd)表示基分布(Base Distribution),F也是Dir(α,F)分布的众数(Mode)。在更新的参数体系(γ,θw,θc|w)下,设定参数的先验分布为γ~Dir(αγ,πγ),θw~Dir(αw,πw),θ·|w~Dir(α·|w,π·|w)。根据Dir(α,F)的定义,计算机装置利用(πγ,πw,π·|w)表示更新的参数体系参数(γ,θw,θc|w)的先验倾向值,(αγ,αw,α·|w)表示先验信息的强度。设πw为均匀分布,π·|w由词语先验分类分布给出,所述词语先验分类分布预先定义在计算机装置中。根据更新的参数体系的所述限制条件
Figure BDA0003118027400000106
设定
Figure BDA0003118027400000107
设定强度超参数为(αγ,αw,α·|w)=(αN,αN,α),获得(γ,θw,θc|w)的先验分布
Figure BDA00031180274000001012
Figure BDA0003118027400000108
Figure BDA0003118027400000109
为目标文本中的B个未分词文本片段,那么更新的参数体系(γ,θw,θc|w)的后验分布为:
Figure BDA00031180274000001010
Figure BDA00031180274000001011
需要说明的是,可以通过求解参数的后验众数(Posterior Mode)来给出参数估计的结果,也可以通过从后验分布中抽样,来进行统计推断和分析。
上述图1详细介绍了本申请的基于双词典模型的人工智能文本分析方法,下面结合图2,对实现所述基于双词典模型的人工智能文本分析方法的硬件装置架构进行介绍。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
参阅图2所示,为本申请较佳实施例提供的计算机装置的结构示意图。在本申请较佳实施例中,所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解,图2示出的计算机装置的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机装置3包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。
需要说明的是,所述计算机装置3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如双词典模型、安装在所述计算机装置3中的文本分析系统30等,并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit),利用各种接口和线路连接整个计算机装置3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机装置3的各种功能和处理数据,例如执行文本分析的功能。
在一些实施例中,所述文本分析系统30运行于计算机装置3中。所述文本分析系统30可以包括多个由程序代码段所组成的功能模块。所述文本分析系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中,并由至少一个处理器32所执行,以实现文本分析功能(详见图1描述)。
本实施例中,所述文本分析系统30根据其所执行的功能,可以被划分为多个功能模块。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
尽管未示出,所述计算机装置3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述计算机装置3的操作系统以及安装的各类应用程序(如所述的文本分析系统30)、程序代码等,例如,上述的各个模块。
在本申请的一个实施例中,所述存储器31存储一个或多个指令(即至少一个指令),所述至少一个指令被所述至少一个处理器32所执行以实现图1所示的文本分析的目的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照以上较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (10)

1.一种基于双词典模型的人工智能文本分析方法,其特征在于,所述方法包括:
获取预先构建的双词典模型,所述双词典模型包括初始词语词典
Figure FDA0003118027390000011
初始超模式词典
Figure FDA0003118027390000012
和初始参数体系(γ,θw∣c);
从所述初始超模式词典
Figure FDA0003118027390000013
中抽取超模式,获得超模式序列P;
根据所述超模式序列P抽取词语w,获得词语序列Wi和所述词语序列Wi的序列W,其中,所述词语
Figure FDA0003118027390000014
基于所述序列W,获得未分词文本片段T,确定所述未分词文本片段T的多个隐状态H,计算每个所述隐状态H的生成概率
Figure FDA0003118027390000015
选取最大的所述生成概率
Figure FDA0003118027390000016
的值对应的隐状态H,记为目标文本分析结果。
2.根据权利要求1所述的基于双词典模型的人工智能文本分析方法,其特征在于,所述方法还包括:
基于所述初始参数体系(γ,θw∣c)计算更新的参数体系(γ,θwc∣w);
设定所述更新的参数体系(γ,θwc∣w)的先验分布,以及所述更新的参数体系(γ,θwc∣w)的后验分布,其中,
Figure FDA0003118027390000017
表示词语w的抽样概率分布,
Figure FDA0003118027390000018
表示一组抽样概率分布,
Figure FDA0003118027390000019
表示给定词语w的情况下词语类别的条件分布,θc∣w表示给定词语w的情况下词语类别c的抽样概率。
3.根据权利要求1所述的基于双词典模型的人工智能文本分析方法,其特征在于,所述双词典模型还包括:
由目标文本中所有字符al组成的字符集合
Figure FDA00031180273900000110
Figure FDA00031180273900000111
所述初始词语词典
Figure FDA00031180273900000112
其中,
Figure FDA00031180273900000113
Figure FDA00031180273900000114
Figure FDA00031180273900000122
表示正整数;
wn是由所述集合
Figure FDA00031180273900000115
中的字符组成的词语;
目标文本中词语类别的集合
Figure FDA00031180273900000116
其中ck表示命名实体的类别,c0表示区别于所述命名实体的背景词的类别,
Figure FDA00031180273900000117
Figure FDA00031180273900000118
初始超模式词典
Figure FDA00031180273900000119
其中
Figure FDA00031180273900000123
pm表示由形符tj组成的超模式,所述形符
Figure FDA00031180273900000120
j表示正整数;e表示终止符;
所述初始参数体系(γ,θw∣c),其中
Figure FDA00031180273900000121
γ表示超模式的抽样概率分布,其中γp表示超模式p的抽样概率;
Figure FDA0003118027390000021
表示一组抽样概率分布,其中
Figure FDA0003118027390000022
表示给定词语类别c的情况下词语的抽样概率分布,θw∣c表示给定词语类别c的情况下词语w的抽样概率。
4.根据权利要求3所述的基于双词典模型的人工智能文本分析方法,其特征在于,所述从初始超模式词典
Figure FDA0003118027390000023
中抽取超模式,获得超模式序列P包括:
按照每个超模式的抽样概率γp,对所述初始超模式词典
Figure FDA0003118027390000024
中的超模式Pi进行随机有放回抽样,直至抽取到终止符e;
设定所述超模式序列P=P1|P2|…|Pn|e,其中,超模式
Figure FDA0003118027390000025
5.根据权利要求3所述的基于双词典模型的人工智能文本分析方法,其特征在于,所述方法还包括:
计算所述超模式序列P的抽样概率
Figure FDA0003118027390000026
Figure FDA0003118027390000027
其中γe表示终止符e的抽样概率。
6.根据权利要求3或4所述的基于双词典模型的人工智能文本分析方法,其特征在于,所述根据所述超模式序列P抽取词语w,获得词语序列Wi和所述词语序列Wi的序列W包括:
确定超模式Pi中每个形符tij的类别,其中,j表示正整数;
当形符
Figure FDA0003118027390000028
时,令wij=tij
当形符
Figure FDA0003118027390000029
时,根据抽样概率
Figure FDA00031180273900000225
从所述初始词语词典
Figure FDA00031180273900000210
中抽取词语wij
获得所述序列
Figure FDA00031180273900000211
和所述序列W=W1|W2|…|Wn
7.根据权利要求6所述的基于双词典模型的人工智能文本分析方法,其特征在于,所述方法还包括:
计算给定所述超模式序列P的情况下的所述序列Wi的抽样概率
Figure FDA00031180273900000212
Figure FDA00031180273900000213
其中,
Figure FDA00031180273900000214
Figure FDA00031180273900000215
并且当
Figure FDA00031180273900000216
时,
Figure FDA00031180273900000217
Figure FDA00031180273900000218
时,
Figure FDA00031180273900000219
Figure FDA00031180273900000220
Figure FDA00031180273900000221
表示
Figure FDA00031180273900000222
时wij的抽样概率;
计算给定所述超模式序列P的情况下的所述序列W的抽样概率
Figure FDA00031180273900000223
Figure FDA00031180273900000224
8.根据权利要求6所述的基于双词典模型的人工智能文本分析方法,其特征在于,所述基于所述序列W,获得未分词文本片段T包括:将所述序列W中的分隔符去掉,获得未分词文本片段T=T1T2…Tn,其中
Figure FDA0003118027390000031
将H=(P,W)记为所述未分词文本片段T的隐状态,所述隐状态H的生成概率
Figure FDA0003118027390000032
的计算公式为:
Figure FDA0003118027390000033
其中,
Figure FDA0003118027390000034
表示所述隐状态H中超模式p出现的次数,
Figure FDA0003118027390000035
表示所述隐状态H中类别词语对(c,w)出现的次数。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至8中任意一项所述的基于双词典模型的人工智能文本分析方法。
10.一种计算机装置,其特征在于,该计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现如权利要求1至8中任意一项所述的基于双词典模型的人工智能文本分析方法。
CN202110667892.0A 2021-04-30 2021-06-16 基于双词典模型的人工智能文本分析方法及相关设备 Active CN113268979B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021104857822 2021-04-30
CN202110485782 2021-04-30

Publications (2)

Publication Number Publication Date
CN113268979A true CN113268979A (zh) 2021-08-17
CN113268979B CN113268979B (zh) 2023-06-27

Family

ID=77235222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110667892.0A Active CN113268979B (zh) 2021-04-30 2021-06-16 基于双词典模型的人工智能文本分析方法及相关设备

Country Status (1)

Country Link
CN (1) CN113268979B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156349A (zh) * 2014-03-19 2014-11-19 邓柯 基于统计词典模型的未登录词发现和分词系统及方法
US20170004128A1 (en) * 2015-07-01 2017-01-05 Institute for Sustainable Development Device and method for analyzing reputation for objects by data mining
US20190073414A1 (en) * 2014-07-14 2019-03-07 International Business Machines Corporation Automatically linking text to concepts in a knowledge base
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111209746A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司 自然语言处理方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156349A (zh) * 2014-03-19 2014-11-19 邓柯 基于统计词典模型的未登录词发现和分词系统及方法
US20190073414A1 (en) * 2014-07-14 2019-03-07 International Business Machines Corporation Automatically linking text to concepts in a knowledge base
US20170004128A1 (en) * 2015-07-01 2017-01-05 Institute for Sustainable Development Device and method for analyzing reputation for objects by data mining
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111209746A (zh) * 2019-12-30 2020-05-29 航天信息股份有限公司 自然语言处理方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐嘉泽 等: ""基于TopWORDS方法的古文献专名识别———以《汉书》和《明史》为例"", 《数字人文》 *

Also Published As

Publication number Publication date
CN113268979B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN111695354A (zh) 基于命名实体的文本问答方法、装置及可读存储介质
CN112988963A (zh) 基于多流程节点的用户意图预测方法、装置、设备及介质
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN113722483A (zh) 话题分类方法、装置、设备及存储介质
CN116956896A (zh) 基于人工智能的文本分析方法、系统、电子设备及介质
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
Chen et al. Extracting drug–drug interactions from no-blinding texts using key semantic sentences and GHM loss
CN113269271B (zh) 用于人工智能文本分析的双词典模型的初始化方法及设备
CN107122582A (zh) 面向多数据源的诊疗类实体识别方法及装置
CN113269272A (zh) 用于人工智能文本分析的模型训练方法及相关设备
EP3846075A1 (en) Contextualized character recognition system
CN113344125A (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN113160917A (zh) 一种电子病历实体关系抽取方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN113360643A (zh) 一种基于短文本分类的电子病历数据质量评价方法
CN112863695A (zh) 基于量子注意力机制双向长短期记忆预测模型及提取方法
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN112489790A (zh) 关键数据确定方法、装置、设备及存储介质
CN114692634A (zh) 中文命名实体识别及分类方法和装置
CN113268979A (zh) 基于双词典模型的人工智能文本分析方法及相关设备
CN109300550B (zh) 医学数据关系挖掘方法及装置
CN115757775B (zh) 基于文本蕴含的无触发词文本事件检测方法及系统
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN114387602B (zh) 医疗ocr数据优化模型训练方法、优化方法及设备
CN113420542B (zh) 对话生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant