CN113269271B - 用于人工智能文本分析的双词典模型的初始化方法及设备 - Google Patents

用于人工智能文本分析的双词典模型的初始化方法及设备 Download PDF

Info

Publication number
CN113269271B
CN113269271B CN202110667864.9A CN202110667864A CN113269271B CN 113269271 B CN113269271 B CN 113269271B CN 202110667864 A CN202110667864 A CN 202110667864A CN 113269271 B CN113269271 B CN 113269271B
Authority
CN
China
Prior art keywords
word
hyper
target text
dictionary
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110667864.9A
Other languages
English (en)
Other versions
CN113269271A (zh
Inventor
邓柯
徐嘉泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Publication of CN113269271A publication Critical patent/CN113269271A/zh
Application granted granted Critical
Publication of CN113269271B publication Critical patent/CN113269271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种用于人工智能文本分析的双词典模型的初始化方法及设备,其中,所述方法包括:获取目标文本;构建所述目标文本的双词典模型,所述双词典模型包括初始词语词典
Figure DDA0003118028770000011
与初始超模式词典
Figure DDA0003118028770000012
及初始参数体系(γ,θw∣c)。本申请可以辅助生成双词典模型,提高文本分析模型的适用性、稳健性和可解释性。

Description

用于人工智能文本分析的双词典模型的初始化方法及设备
技术领域
本申请涉及文本分析领域,特别是指一种用于人工智能文本分析的双词典模型的初始化方法及设备。
背景技术
中文自然语言理解是人工智能的重要研究问题和方向。在特定领域的中文文本分析中,如古文、医疗电子病历、散文、诗歌等,标注数据集通常难以获得,深度学习算法所需要的训练数据规模难以在现实项目和分析中达到,标注过程需要消耗大量人力物力。除此之外,由于深度学习方法的端到端的特性,在实际案例中无法有效地调整模型的参数。深度学习模型以及传统的统计分析模型在处理中文文本数据时,忽略了文本数据的句法和语义结构信息,对数据的建模和理解不够充分,不能利用结构信息对算法进行改进。
发明内容
鉴于以上内容,有必要提供一种用于人工智能文本分析的双词典模型的初始化方法及设备,可以辅助生成具有较高的适用性、稳健性和可解释性的双词典模型,以解决上述问题。
所述用于人工智能文本分析的双词典模型的初始化方法,包括:获取目标文本;构建所述目标文本的双词典模型,所述双词典模型包括初始词语词典
Figure BDA0003118028750000011
与初始超模式词典
Figure BDA0003118028750000012
及初始参数体系(γ,θw∣c)。
可选地,对所述初始词语词典
Figure BDA0003118028750000013
的构建包括:获取所述目标文本中的每个字符al,获得所述目标文本中所有字符组成的字符集合
Figure BDA00031180287500000112
其中,1≤l≤L;根据所述目标文本中词语的先验信息,设定词语集合
Figure BDA0003118028750000014
按照预设的第一规则获得词语集合
Figure BDA0003118028750000015
按照预设的第二规则获得词语集合
Figure BDA0003118028750000016
所述初始词语词典
Figure BDA0003118028750000017
其中,
Figure BDA00031180287500000113
1≤n≤N,i,
Figure BDA00031180287500000115
表示正整数;wn是由所述集合
Figure BDA00031180287500000114
中字符组成的词语。
可选地,所述预设的第一规则包括:设定
Figure BDA0003118028750000018
为词语中字符的最大长度阈值,
Figure BDA0003118028750000019
为词语出现的最低频率阈值,利用TopWORDS算法提取所述目标文本中长度不超过所述
Figure BDA00031180287500000110
且频率不低于所述
Figure BDA00031180287500000111
的词语,获得所述词语集合
Figure BDA0003118028750000021
可选地,所述预设的第二规则包括:利用预先训练的弱分类器,对所述目标文本中长度不超过所述
Figure BDA0003118028750000022
且频率不低于所述
Figure BDA0003118028750000023
的词语进行提取;确定先验分类概率πc∣w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc∣w表示给定词语w的情况下,词语类别c的先验分类概率;及选择所述弱分类器提取的词语中,所述先验分类概率πc∣w超过预设的分类阈值的词语,获得所述词语集合
Figure BDA0003118028750000024
可选地,所述初始超模式词典
Figure BDA0003118028750000025
其中,e表示终止符,
Figure BDA00031180287500000228
1≤m≤M,pm表示由形符tm组成的超模式,所述形符tj
Figure BDA0003118028750000026
其中,j表示正整数。
可选地,初始超模式词典
Figure BDA0003118028750000027
的构建包括:设定对所述目标文本中的超模式进行提取时的终止符e;设定词语类别的集合为词语类别集合
Figure BDA0003118028750000028
Figure BDA0003118028750000029
1≤k≤K,其中ck表示命名实体的类别,cO表示区别于所述命名实体的背景词的类别;根据所述目标文本中超模式的先验信息,设定超模式集合
Figure BDA00031180287500000210
按照预设的第三规则获得超模式集合
Figure BDA00031180287500000211
所述初始超模式词典
Figure BDA00031180287500000212
可选地,对初始参数体系(γ,θw∣c)的构建包括:获取所述初始词语词典
Figure BDA00031180287500000213
中的词语在所述目标文本中的计数词频θw;根据所述计数词频θw和所述先验分类概率πc∣w,确定给定词语类别c的情况下,所述初始词语词典
Figure BDA00031180287500000214
中词语的抽样概率分布的初始值
Figure BDA00031180287500000215
其中
Figure BDA00031180287500000216
表示给定词语类别c的情况下词语的抽样概率分布;根据所述初始超模式词典
Figure BDA00031180287500000217
中的超模式在所述目标文本中的抽样概率,获得所述
Figure BDA00031180287500000218
中超模式的抽样概率分布的初始值
Figure BDA00031180287500000219
其中γp表示超模式p的抽样概率。
可选地,所述预设的第三规则包括:基于所述初始词语词典
Figure BDA00031180287500000220
对所述目标文本中的词语进行识别和分割,并标记所述目标文本中词语的置信度满足
Figure BDA00031180287500000221
的命名实体,其中,
Figure BDA00031180287500000222
为预先设定的置信度阈值;设定
Figure BDA00031180287500000223
为超模式中形符的最大长度阈值,
Figure BDA00031180287500000224
为超模式出现的最低频率阈值,扫描并提取所述目标文本中长度不超过所述
Figure BDA00031180287500000225
且频率不低于所述
Figure BDA00031180287500000226
的相邻的被标记的命名实体,获得所述超模式集合
Figure BDA00031180287500000227
所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述用于人工智能文本分析的双词典模型的初始化方法。
所述计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现所述用于人工智能文本分析的双词典模型的初始化方法。
相较于现有技术,所述用于人工智能文本分析的双词典模型的初始化方法及设备,利用文本结构信息基于贝叶斯逻辑对文本数据进行统计建模,可以有效地进行词语发现、命名实体识别和超模式(Meta-pattern)提取,生成的双词典模型具有较高的适用性、稳健性和可解释性,为安全可信的人工智能研究提供了有效的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的用于人工智能文本分析的双词典模型的初始化方法的流程图。
图2是本申请实施例提供的计算机装置的架构图。
图3A是本申请实施例提供的对目标文本中的词语进行分割的示例图。
图3B是本申请实施例提供的用不同的标记区分目标文本中的命名实体的示例图。
图3C是本申请实施例提供的长度不超过超模式中形符的最大长度阈值的超模式及其频率的示例图。
图3D是本申请实施例提供的频率低于超模式出现的最低频率阈值的超模式的示例图。
图3E是本申请实施例提供的频率不低于超模式出现的最低频率阈值的超模式的示例图。
主要元件符号说明
计算机装置 3
处理器 32
存储器 31
模型初始化系统 30
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
参阅图1所示,为本申请较佳实施例的用于人工智能文本分析的双词典模型的初始化方法的流程图。
在本实施例中,所述用于人工智能文本分析的双词典模型的初始化方法可以应用于计算机装置中,对于需要进行模型初始化的计算机装置,可以直接在计算机装置上集成本申请的方法所提供的用于模型初始化的功能,或者以软件开发工具包(SoftwareDevelopment Kit,SDK)的形式运行在计算机装置上。
如图1所示,所述用于人工智能文本分析的双词典模型的初始化方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S1、计算机装置获取目标文本。
在一个实施例中,计算机装置可以接收用户输入的目标文本;所述目标文本可以是特定领域的中文文本,例如,古文、医疗电子病历、散文、诗歌等。
步骤S2、计算机装置基于贝叶斯逻辑,构建所述目标文本的双词典模型,所述双词典模型包括初始词语词典
Figure BDA0003118028750000041
与初始超模式(Meta-pattern)词典
Figure BDA0003118028750000042
及初始参数体系(γ,θw∣c)。
在一个实施例中,所述贝叶斯逻辑包括贝叶斯定理和贝叶斯统计,是一种概率论系统。
在一个实施例中,计算机装置对所述目标文本中的字符进行文本分割,获取所述目标文本中的每个字符al,获得所述目标文本中所有字符组成的字符集合
Figure BDA0003118028750000043
其中,1≤l≤L。
在一个实施例中,计算机装置根据所述目标文本中词语的先验信息,设定词语集合
Figure BDA0003118028750000044
所述目标文本中词语的先验信息,可以是预先保存在计算机装置中的已知词库,所述已知词库中包含所述目标文本中的词语,所述词语包括字符集合
Figure BDA0003118028750000045
中的字符组成的字符序列,例如,王安石、为、参知政事等。
在一个实施例中,计算机装置按照预设的第一规则获得词语集合
Figure BDA0003118028750000046
所述预设的第一规则包括:设定
Figure BDA0003118028750000051
为词语中字符的最大长度阈值,
Figure BDA0003118028750000052
为词语出现的最低频率阈值,利用TopWORDS算法对所述目标文本进行文本挖掘,提取所述目标文本中长度不超过所述
Figure BDA0003118028750000053
且频率不低于所述
Figure BDA0003118028750000054
的词语,获得所述词语集合
Figure BDA0003118028750000055
所述TopWORDS算法是一个无监督的中文文本分析工具,它可以在文本分割的同时实现高效的词语发现,但有一定的局限性:(1)学习过程中只使用字符序列计数信息;(2)不能自动区分词语类别;(3)遗漏低频词语。例如,设定
Figure BDA0003118028750000056
Figure BDA0003118028750000057
那么利用TopWORDS算法对目标文本“AABBABCCABCD”中的词语进行提取后,获得的词语集合
Figure BDA0003118028750000058
C(3),AB(3),BC(2),ABC(2)},其中,括号中的数字代表该词语的出现频率。
在一个实施例中,计算机装置根据所述目标文本中词语类别的先验信息,设定目标文本中词语类别的集合为
Figure BDA0003118028750000059
1≤K≤K,所述目标文本中的每个词语都属于特定的词语类别,所述词语类别包括命名实体的类别和区别于所述命名实体的类别的背景词的类别,其中ck表示命名实体的类别,co表示区别于所述命名实体的背景词的类别。所述目标文本中词语类别的先验信息,可以是预先保存在计算机装置中的已知词语类别库,所述已知词语类别库中包含所有所述目标文本中的词语类别。所述命名实体包括人名、官职、地名以及其他所有以名称为标识的实体,例如,王安石、参知政事等;所述背景词包括所有区别于命名实体的词语,例如,王、安、石、为、参、知、政、事等。
在一个实施例中,计算机装置按照预设的第二规则获得词语集合
Figure BDA00031180287500000510
所述预设的第二规则包括:利用预先训练的弱分类器对所述目标文本中长度不超过所述
Figure BDA00031180287500000511
并且频率不低于所述
Figure BDA00031180287500000512
的词语进行提取;确定先验分类概率πc∣w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc∣w表示给定词语w的情况下,词语类别c的先验分类概率,所述先验分类概率πc∣w表示一个条件概率(例如,词语“王安石”是一个“人名”的概率);及选择所述弱分类器提取的词语中,所述先验分类概率πc∣w超过预设的分类阈值(例如,0.5)的词语,获得所述词语集合
Figure BDA00031180287500000513
所述预先训练的弱分类器是一个词语分类器(或文本分类器),可以利用预先保存在计算机装置中的已知词库中的词语训练模型,获得所述弱分类器,所述弱分类器的分类准确率在60%至80%。
在一个实施例中,计算机装置整合所述字符集合
Figure BDA00031180287500000514
词语集合
Figure BDA00031180287500000515
词语集合
Figure BDA00031180287500000516
词语集合
Figure BDA00031180287500000517
获得初始词语词典
Figure BDA00031180287500000518
所述初始词语词典
Figure BDA00031180287500000519
Figure BDA00031180287500000520
其中,
Figure BDA00031180287500000521
1≤n≤N,i,
Figure BDA00031180287500000522
表示正整数;wn是由所述集合
Figure BDA00031180287500000523
中字符组成的词语。
在一个实施例中,所述初始超模式词典
Figure BDA00031180287500000524
其中,e表示终止符,
Figure BDA0003118028750000061
1≤m≤m,pm表示由形符(Token)tj组成的超模式,“|”表示分隔符,所述形符
Figure BDA0003118028750000062
其中,j表示正整数。举例而言,所述形符tj可以是人名(Name,N)、官职(Office title,O)、背景词(Background,B)、为(视作
Figure BDA00031180287500000622
中字符)等,那么所述超模式pm可以是N、O、B、N为O等。所述终止符e表示对所述目标文本中的超模式进行提取时的停止准则,当抽取到所述终止符e时,停止抽取超模式。例如,考虑基于双词典模型的文本片段“王安石为参知政事”的生成过程时,首先抽取到超模式“N为O”和终止符得到超模式序列,之后根据抽取到的超模式序列抽取词语,获得词语序列,最后得到词语序列对应的文本片段“王安石为参知政事”。
在一个实施例中,计算机装置根据所述目标文本中超模式的先验信息,设定超模式集合
Figure BDA0003118028750000063
所述目标文本中超模式的先验信息,可以是预先保存在计算机装置中的已知超模式库,所述已知超模式库中包含所有所述目标文本中的超模式。
在一个实施例中,计算机装置按照预设的第三规则获得超模式集合
Figure BDA0003118028750000064
所述预设的第三规则包括:例如图3A至图3E所示,基于所述初始词语词典
Figure BDA0003118028750000065
对所述目标文本中的词语进行识别和分割,并用不同的标记区分所述目标文本中词语置信度满足
Figure BDA0003118028750000066
的命名实体(例如图3中利用粗体和斜体对人名和官职进行区分:N、O,还可以用不同的颜色进行区分),其中
Figure BDA0003118028750000067
为预先设定的置信度阈值(例如,0.85);设定
Figure BDA0003118028750000068
为超模式中形符的最大长度阈值(例如,3),
Figure BDA0003118028750000069
为超模式出现的最低频率阈值(例如,2),按顺序扫描(例如,利用文字识别算法或图像识别算法,对具有相同标记特征的文字进行依序扫描识别)并提取所述目标文本中长度不超过所述
Figure BDA00031180287500000610
并且频率不低于所述
Figure BDA00031180287500000611
的相邻的被标记的命名实体(例如,超模式“王N为”的频率为1,低于超模式出现的最低频率阈值2,不对其进行提取;超模式“N为O”的频率为2,不低于超模式出现的最低频率阈值2,对其进行提取),整合该过程提取到的超模式,获得所述超模式集合
Figure BDA00031180287500000612
在一个实施例中,计算机装置整合所述终止符e、词语类别集合
Figure BDA00031180287500000613
超模式集合
Figure BDA00031180287500000614
超模式集合
Figure BDA00031180287500000615
获得所述初始超模式词典
Figure BDA00031180287500000616
所述初始超模式词典
Figure BDA00031180287500000617
在一个实施例中,计算机装置对初始参数体系(γ,θw∣c)的构建包括:获取所述初始词语词典
Figure BDA00031180287500000618
中的词语在所述目标文本中的计数词频θw;根据所述计数词频θw和所述先验分类概率πc∣w,确定给定词语类别c的情况下,所述初始词语词典
Figure BDA00031180287500000619
中词语的抽样概率分布的初始值
Figure BDA00031180287500000620
其中
Figure BDA00031180287500000621
Figure BDA0003118028750000071
表示给定词语类别c的情况下词语的抽样概率分布,θw∣c∝θw·πc∣w,θw∣c表示给定词语类别c的情况下词语w的抽样概率;
Figure BDA0003118028750000072
中的超模式在所述目标文本中的抽样概率,获得所述
Figure BDA0003118028750000073
中超模式的抽样概率分布的初始值γ,其中,
Figure BDA0003118028750000074
Figure BDA0003118028750000075
γp表示超模式p的抽样概率(例如,超模式“N为O”的抽样概率为0.01)。
上述图1详细介绍了本申请的用于人工智能文本分析的双词典模型的初始化方法,下面结合图2,对实现所述用于人工智能文本分析的双词典模型的初始化方法的硬件装置架构进行介绍。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
参阅图2所示,为本申请较佳实施例提供的计算机装置的结构示意图。在本申请较佳实施例中,所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解,图2示出的计算机装置的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机装置3包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。
需要说明的是,所述计算机装置3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如已知词库、已知词语类别库、安装在所述计算机装置3中的模型初始化系统30等,并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit),利用各种接口和线路连接整个计算机装置3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机装置3的各种功能和处理数据,例如执行双词典模型初始化的功能。
在一些实施例中,所述模型初始化系统30运行于计算机装置3中。所述模型初始化系统30可以包括多个由程序代码段所组成的功能模块。所述模型初始化系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中,并由至少一个处理器32所执行,以实现双词典模型初始化功能(详见图1描述)。
本实施例中,所述模型初始化系统30根据其所执行的功能,可以被划分为多个功能模块。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
尽管未示出,所述计算机装置3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述计算机装置3的操作系统以及安装的各类应用程序(如所述的模型初始化系统30)、程序代码等,例如,上述的各个模块。
在本申请的一个实施例中,所述存储器31存储一个或多个指令(即至少一个指令),所述至少一个指令被所述至少一个处理器32所执行以实现图1所示的双词典模型初始化的目的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照以上较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。

Claims (4)

1.一种用于人工智能文本分析的双词典模型的初始化方法,其特征在于,所述方法包括:
获取目标文本;
构建所述目标文本的双词典模型,所述双词典模型包括初始词语词典
Figure FDA0003846432620000011
与初始超模式词典
Figure FDA0003846432620000012
初始参数体系(γ,θw|c);
其中,对所述初始词语词典
Figure FDA0003846432620000013
的构建包括:获取所述目标文本中的每个字符al,获得所述目标文本中所有字符组成的字符集合
Figure FDA0003846432620000014
其中,1≤l≤L;根据所述目标文本中词语的先验信息,设定词语集合
Figure FDA0003846432620000015
按照预设的第一规则获得词语集合
Figure FDA0003846432620000016
按照预设的第二规则获得词语集合
Figure FDA0003846432620000017
所述初始词语词典
Figure FDA0003846432620000018
其中,
Figure FDA0003846432620000019
Figure FDA00038464326200000110
Figure FDA00038464326200000129
表示正整数;wn是由所述集合
Figure FDA00038464326200000128
中的字符组成的词语;
所述预设的第一规则包括:设定
Figure FDA00038464326200000111
为词语中字符的最大长度阈值,
Figure FDA00038464326200000112
为词语出现的最低频率阈值,利用TopWORDS算法提取所述目标文本中长度不超过所述
Figure FDA00038464326200000113
且频率不低于所述
Figure FDA00038464326200000114
的词语,获得所述词语集合
Figure FDA00038464326200000115
所述预设的第二规则包括:利用预先训练的弱分类器,对所述目标文本中长度不超过所述
Figure FDA00038464326200000116
且频率不低于所述
Figure FDA00038464326200000117
的词语进行提取;确定先验分类概率πc|w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc|w表示给定词语w的情况下,词语类别c的先验分类概率;及选择所述弱分类器提取的词语中,所述先验分类概率πc|w超过预设的分类阈值的词语,获得所述词语集合
Figure FDA00038464326200000118
所述初始超模式词典
Figure FDA00038464326200000119
其中,e表示终止符,
Figure FDA00038464326200000120
Figure FDA00038464326200000121
pm表示由形符tj组成的超模式,所述形符
Figure FDA00038464326200000122
其中,j表示正整数;
对所述初始超模式词典
Figure FDA00038464326200000123
的构建包括:设定对所述目标文本中的超模式进行提取时的终止符e;设定词语类别的集合为词语类别集合
Figure FDA00038464326200000130
Figure FDA00038464326200000131
其中ck表示命名实体的类别,c0表示区别于所述命名实体的背景词的类别;根据所述目标文本中超模式的先验信息,设定超模式集合
Figure FDA00038464326200000124
按照预设的第三规则获得超模式集合
Figure FDA00038464326200000125
所述初始超模式词典
Figure FDA00038464326200000126
对所述初始参数体系(γ,θw|c)的构建包括:获取所述初始词语词典
Figure FDA00038464326200000127
中的词语在所述目标文本中的计数词频θw;根据所述计数词频θw和所述先验分类概率πc|w,确定给定词语类别c的情况下,所述初始词语词典
Figure FDA0003846432620000021
中词语的抽样概率分布的初始值
Figure FDA0003846432620000022
其中
Figure FDA0003846432620000023
表示给定词语类别c的情况下词语的抽样概率分布;根据所述初始超模式词典
Figure FDA0003846432620000024
中的超模式在所述目标文本中的抽样概率,获得所述
Figure FDA0003846432620000025
中超模式的抽样概率分布的初始值
Figure FDA0003846432620000026
其中γp表示超模式p的抽样概率。
2.根据权利要求1所述的用于人工智能文本分析的双词典模型的初始化方法,其特征在于,所述预设的第三规则包括:
基于所述初始词语词典
Figure FDA0003846432620000027
对所述目标文本中的词语进行识别和分割,并标记所述目标文本中词语的置信度满足
Figure FDA0003846432620000028
的命名实体,其中,
Figure FDA0003846432620000029
为预先设定的置信度阈值;
设定
Figure FDA00038464326200000210
为超模式中形符的最大长度阈值,
Figure FDA00038464326200000211
为超模式出现的最低频率阈值,扫描并提取所述目标文本中长度不超过所述
Figure FDA00038464326200000212
且频率不低于所述
Figure FDA00038464326200000213
的相邻的被标记的命名实体,获得所述超模式集合
Figure FDA00038464326200000214
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至2中任意一项所述的用于人工智能文本分析的双词典模型的初始化方法。
4.一种计算机装置,其特征在于,该计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现如权利要求1至2中任意一项所述的用于人工智能文本分析的双词典模型的初始化方法。
CN202110667864.9A 2021-04-30 2021-06-16 用于人工智能文本分析的双词典模型的初始化方法及设备 Active CN113269271B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021104826684 2021-04-30
CN202110482668 2021-04-30

Publications (2)

Publication Number Publication Date
CN113269271A CN113269271A (zh) 2021-08-17
CN113269271B true CN113269271B (zh) 2022-11-15

Family

ID=77235107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110667864.9A Active CN113269271B (zh) 2021-04-30 2021-06-16 用于人工智能文本分析的双词典模型的初始化方法及设备

Country Status (1)

Country Link
CN (1) CN113269271B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925884A (zh) * 2021-03-09 2021-06-08 海南电网有限责任公司 一种基于自然语言处理的调度应急知识管理的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893582A (zh) * 2016-04-01 2016-08-24 深圳市未来媒体技术研究院 一种社交网络用户情绪判别方法
CN105976056A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向rnn的信息提取系统
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
CN109492105A (zh) * 2018-11-10 2019-03-19 上海文军信息技术有限公司 一种基于多特征集成学习的文本情感分类方法
CN110188191A (zh) * 2019-04-08 2019-08-30 北京邮电大学 一种用于网络社区文本的实体关系图谱构建方法和系统
CN110209793A (zh) * 2019-06-18 2019-09-06 佰聆数据股份有限公司 一种用于智能识别文本语义的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2628431C1 (ru) * 2016-04-12 2017-08-16 Общество с ограниченной ответственностью "Аби Продакшн" Подбор параметров текстового классификатора на основе семантических признаков
US11308419B2 (en) * 2018-08-22 2022-04-19 International Business Machines Corporation Learning sentiment composition from sentiment lexicons

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893582A (zh) * 2016-04-01 2016-08-24 深圳市未来媒体技术研究院 一种社交网络用户情绪判别方法
CN105976056A (zh) * 2016-05-03 2016-09-28 成都数联铭品科技有限公司 基于双向rnn的信息提取系统
CN106897459A (zh) * 2016-12-14 2017-06-27 中国电子科技集团公司第三十研究所 一种基于半监督学习的文本敏感信息识别方法
CN109492105A (zh) * 2018-11-10 2019-03-19 上海文军信息技术有限公司 一种基于多特征集成学习的文本情感分类方法
CN110188191A (zh) * 2019-04-08 2019-08-30 北京邮电大学 一种用于网络社区文本的实体关系图谱构建方法和系统
CN110209793A (zh) * 2019-06-18 2019-09-06 佰聆数据股份有限公司 一种用于智能识别文本语义的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chinese Text Sentiment Analysis Based on Extended Sentiment Dictionary;GUIXIAN XU等;《IEEE Access》;20190413;第43749-43762页 *
Sentiment Analysis Based on Dictionary Approach;Reshma Bhonde等;《International Journal of Emerging Engineering Research and Technology》;20150131;第51-55页 *
情感词典自动构建方法综述;王科等;《自动化学报》;20160430;第495-511页 *

Also Published As

Publication number Publication date
CN113269271A (zh) 2021-08-17

Similar Documents

Publication Publication Date Title
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN109522552B (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN112380343A (zh) 问题解析方法、装置、电子设备及存储介质
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN112231485A (zh) 文本推荐方法、装置、计算机设备及存储介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN111753089A (zh) 话题聚类方法、装置、电子设备及存储介质
CN112507663A (zh) 基于文本的判断题生成方法、装置、电子设备及存储介质
CN113269271B (zh) 用于人工智能文本分析的双词典模型的初始化方法及设备
CN113435582A (zh) 基于句向量预训练模型的文本处理方法及相关设备
CN116956896A (zh) 基于人工智能的文本分析方法、系统、电子设备及介质
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN113204698A (zh) 新闻主题词生成方法、装置、设备及介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112989043A (zh) 指代消解方法、装置、电子设备及可读存储介质
CN110717326B (zh) 基于机器学习的文本信息作者的识别方法及其装置
CN111062216B (zh) 命名实体识别方法、装置、终端及可读介质
CN109300550B (zh) 医学数据关系挖掘方法及装置
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN112668281A (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
CN112466277A (zh) 韵律模型训练方法、装置、电子设备及存储介质
CN111161861A (zh) 用于医院后勤运维的短文本数据处理方法、装置
CN114692634A (zh) 中文命名实体识别及分类方法和装置
CN113420542B (zh) 对话生成方法、装置、电子设备及存储介质
CN115146064A (zh) 意图识别模型优化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant