CN113269271B - 用于人工智能文本分析的双词典模型的初始化方法及设备 - Google Patents
用于人工智能文本分析的双词典模型的初始化方法及设备 Download PDFInfo
- Publication number
- CN113269271B CN113269271B CN202110667864.9A CN202110667864A CN113269271B CN 113269271 B CN113269271 B CN 113269271B CN 202110667864 A CN202110667864 A CN 202110667864A CN 113269271 B CN113269271 B CN 113269271B
- Authority
- CN
- China
- Prior art keywords
- word
- hyper
- target text
- dictionary
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本申请涉及文本分析领域,特别是指一种用于人工智能文本分析的双词典模型的初始化方法及设备。
背景技术
中文自然语言理解是人工智能的重要研究问题和方向。在特定领域的中文文本分析中,如古文、医疗电子病历、散文、诗歌等,标注数据集通常难以获得,深度学习算法所需要的训练数据规模难以在现实项目和分析中达到,标注过程需要消耗大量人力物力。除此之外,由于深度学习方法的端到端的特性,在实际案例中无法有效地调整模型的参数。深度学习模型以及传统的统计分析模型在处理中文文本数据时,忽略了文本数据的句法和语义结构信息,对数据的建模和理解不够充分,不能利用结构信息对算法进行改进。
发明内容
鉴于以上内容,有必要提供一种用于人工智能文本分析的双词典模型的初始化方法及设备,可以辅助生成具有较高的适用性、稳健性和可解释性的双词典模型,以解决上述问题。
可选地,对所述初始词语词典的构建包括:获取所述目标文本中的每个字符al,获得所述目标文本中所有字符组成的字符集合其中,1≤l≤L;根据所述目标文本中词语的先验信息,设定词语集合按照预设的第一规则获得词语集合按照预设的第二规则获得词语集合所述初始词语词典其中,1≤n≤N,i,表示正整数;wn是由所述集合中字符组成的词语。
可选地,所述预设的第二规则包括:利用预先训练的弱分类器,对所述目标文本中长度不超过所述且频率不低于所述的词语进行提取;确定先验分类概率πc∣w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc∣w表示给定词语w的情况下,词语类别c的先验分类概率;及选择所述弱分类器提取的词语中,所述先验分类概率πc∣w超过预设的分类阈值的词语,获得所述词语集合
可选地,初始超模式词典的构建包括:设定对所述目标文本中的超模式进行提取时的终止符e;设定词语类别的集合为词语类别集合 1≤k≤K,其中ck表示命名实体的类别,cO表示区别于所述命名实体的背景词的类别;根据所述目标文本中超模式的先验信息,设定超模式集合按照预设的第三规则获得超模式集合所述初始超模式词典
可选地,对初始参数体系(γ,θw∣c)的构建包括:获取所述初始词语词典中的词语在所述目标文本中的计数词频θw;根据所述计数词频θw和所述先验分类概率πc∣w,确定给定词语类别c的情况下,所述初始词语词典中词语的抽样概率分布的初始值其中表示给定词语类别c的情况下词语的抽样概率分布;根据所述初始超模式词典中的超模式在所述目标文本中的抽样概率,获得所述中超模式的抽样概率分布的初始值其中γp表示超模式p的抽样概率。
可选地,所述预设的第三规则包括:基于所述初始词语词典对所述目标文本中的词语进行识别和分割,并标记所述目标文本中词语的置信度满足的命名实体,其中,为预先设定的置信度阈值;设定为超模式中形符的最大长度阈值,为超模式出现的最低频率阈值,扫描并提取所述目标文本中长度不超过所述且频率不低于所述的相邻的被标记的命名实体,获得所述超模式集合
所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述用于人工智能文本分析的双词典模型的初始化方法。
所述计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现所述用于人工智能文本分析的双词典模型的初始化方法。
相较于现有技术,所述用于人工智能文本分析的双词典模型的初始化方法及设备,利用文本结构信息基于贝叶斯逻辑对文本数据进行统计建模,可以有效地进行词语发现、命名实体识别和超模式(Meta-pattern)提取,生成的双词典模型具有较高的适用性、稳健性和可解释性,为安全可信的人工智能研究提供了有效的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的用于人工智能文本分析的双词典模型的初始化方法的流程图。
图2是本申请实施例提供的计算机装置的架构图。
图3A是本申请实施例提供的对目标文本中的词语进行分割的示例图。
图3B是本申请实施例提供的用不同的标记区分目标文本中的命名实体的示例图。
图3C是本申请实施例提供的长度不超过超模式中形符的最大长度阈值的超模式及其频率的示例图。
图3D是本申请实施例提供的频率低于超模式出现的最低频率阈值的超模式的示例图。
图3E是本申请实施例提供的频率不低于超模式出现的最低频率阈值的超模式的示例图。
主要元件符号说明
计算机装置 | 3 |
处理器 | 32 |
存储器 | 31 |
模型初始化系统 | 30 |
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
参阅图1所示,为本申请较佳实施例的用于人工智能文本分析的双词典模型的初始化方法的流程图。
在本实施例中,所述用于人工智能文本分析的双词典模型的初始化方法可以应用于计算机装置中,对于需要进行模型初始化的计算机装置,可以直接在计算机装置上集成本申请的方法所提供的用于模型初始化的功能,或者以软件开发工具包(SoftwareDevelopment Kit,SDK)的形式运行在计算机装置上。
如图1所示,所述用于人工智能文本分析的双词典模型的初始化方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S1、计算机装置获取目标文本。
在一个实施例中,计算机装置可以接收用户输入的目标文本;所述目标文本可以是特定领域的中文文本,例如,古文、医疗电子病历、散文、诗歌等。
在一个实施例中,所述贝叶斯逻辑包括贝叶斯定理和贝叶斯统计,是一种概率论系统。
在一个实施例中,计算机装置根据所述目标文本中词语的先验信息,设定词语集合所述目标文本中词语的先验信息,可以是预先保存在计算机装置中的已知词库,所述已知词库中包含所述目标文本中的词语,所述词语包括字符集合中的字符组成的字符序列,例如,王安石、为、参知政事等。
在一个实施例中,计算机装置按照预设的第一规则获得词语集合所述预设的第一规则包括:设定为词语中字符的最大长度阈值,为词语出现的最低频率阈值,利用TopWORDS算法对所述目标文本进行文本挖掘,提取所述目标文本中长度不超过所述且频率不低于所述的词语,获得所述词语集合所述TopWORDS算法是一个无监督的中文文本分析工具,它可以在文本分割的同时实现高效的词语发现,但有一定的局限性:(1)学习过程中只使用字符序列计数信息;(2)不能自动区分词语类别;(3)遗漏低频词语。例如,设定 那么利用TopWORDS算法对目标文本“AABBABCCABCD”中的词语进行提取后,获得的词语集合C(3),AB(3),BC(2),ABC(2)},其中,括号中的数字代表该词语的出现频率。
在一个实施例中,计算机装置根据所述目标文本中词语类别的先验信息,设定目标文本中词语类别的集合为1≤K≤K,所述目标文本中的每个词语都属于特定的词语类别,所述词语类别包括命名实体的类别和区别于所述命名实体的类别的背景词的类别,其中ck表示命名实体的类别,co表示区别于所述命名实体的背景词的类别。所述目标文本中词语类别的先验信息,可以是预先保存在计算机装置中的已知词语类别库,所述已知词语类别库中包含所有所述目标文本中的词语类别。所述命名实体包括人名、官职、地名以及其他所有以名称为标识的实体,例如,王安石、参知政事等;所述背景词包括所有区别于命名实体的词语,例如,王、安、石、为、参、知、政、事等。
在一个实施例中,计算机装置按照预设的第二规则获得词语集合所述预设的第二规则包括:利用预先训练的弱分类器对所述目标文本中长度不超过所述并且频率不低于所述的词语进行提取;确定先验分类概率πc∣w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc∣w表示给定词语w的情况下,词语类别c的先验分类概率,所述先验分类概率πc∣w表示一个条件概率(例如,词语“王安石”是一个“人名”的概率);及选择所述弱分类器提取的词语中,所述先验分类概率πc∣w超过预设的分类阈值(例如,0.5)的词语,获得所述词语集合所述预先训练的弱分类器是一个词语分类器(或文本分类器),可以利用预先保存在计算机装置中的已知词库中的词语训练模型,获得所述弱分类器,所述弱分类器的分类准确率在60%至80%。
在一个实施例中,所述初始超模式词典其中,e表示终止符,1≤m≤m,pm表示由形符(Token)tj组成的超模式,“|”表示分隔符,所述形符其中,j表示正整数。举例而言,所述形符tj可以是人名(Name,N)、官职(Office title,O)、背景词(Background,B)、为(视作中字符)等,那么所述超模式pm可以是N、O、B、N为O等。所述终止符e表示对所述目标文本中的超模式进行提取时的停止准则,当抽取到所述终止符e时,停止抽取超模式。例如,考虑基于双词典模型的文本片段“王安石为参知政事”的生成过程时,首先抽取到超模式“N为O”和终止符得到超模式序列,之后根据抽取到的超模式序列抽取词语,获得词语序列,最后得到词语序列对应的文本片段“王安石为参知政事”。
在一个实施例中,计算机装置根据所述目标文本中超模式的先验信息,设定超模式集合所述目标文本中超模式的先验信息,可以是预先保存在计算机装置中的已知超模式库,所述已知超模式库中包含所有所述目标文本中的超模式。
在一个实施例中,计算机装置按照预设的第三规则获得超模式集合所述预设的第三规则包括:例如图3A至图3E所示,基于所述初始词语词典对所述目标文本中的词语进行识别和分割,并用不同的标记区分所述目标文本中词语置信度满足的命名实体(例如图3中利用粗体和斜体对人名和官职进行区分:N、O,还可以用不同的颜色进行区分),其中为预先设定的置信度阈值(例如,0.85);设定为超模式中形符的最大长度阈值(例如,3),为超模式出现的最低频率阈值(例如,2),按顺序扫描(例如,利用文字识别算法或图像识别算法,对具有相同标记特征的文字进行依序扫描识别)并提取所述目标文本中长度不超过所述并且频率不低于所述的相邻的被标记的命名实体(例如,超模式“王N为”的频率为1,低于超模式出现的最低频率阈值2,不对其进行提取;超模式“N为O”的频率为2,不低于超模式出现的最低频率阈值2,对其进行提取),整合该过程提取到的超模式,获得所述超模式集合
在一个实施例中,计算机装置对初始参数体系(γ,θw∣c)的构建包括:获取所述初始词语词典中的词语在所述目标文本中的计数词频θw;根据所述计数词频θw和所述先验分类概率πc∣w,确定给定词语类别c的情况下,所述初始词语词典中词语的抽样概率分布的初始值其中 表示给定词语类别c的情况下词语的抽样概率分布,θw∣c∝θw·πc∣w,θw∣c表示给定词语类别c的情况下词语w的抽样概率;中的超模式在所述目标文本中的抽样概率,获得所述中超模式的抽样概率分布的初始值γ,其中, γp表示超模式p的抽样概率(例如,超模式“N为O”的抽样概率为0.01)。
上述图1详细介绍了本申请的用于人工智能文本分析的双词典模型的初始化方法,下面结合图2,对实现所述用于人工智能文本分析的双词典模型的初始化方法的硬件装置架构进行介绍。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
参阅图2所示,为本申请较佳实施例提供的计算机装置的结构示意图。在本申请较佳实施例中,所述计算机装置3包括存储器31、至少一个处理器32。本领域技术人员应该了解,图2示出的计算机装置的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机装置3包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。
需要说明的是,所述计算机装置3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如已知词库、已知词语类别库、安装在所述计算机装置3中的模型初始化系统30等,并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者任何其他能够用于携带或存储数据的计算机可读的存储介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit),利用各种接口和线路连接整个计算机装置3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机装置3的各种功能和处理数据,例如执行双词典模型初始化的功能。
在一些实施例中,所述模型初始化系统30运行于计算机装置3中。所述模型初始化系统30可以包括多个由程序代码段所组成的功能模块。所述模型初始化系统30中的各个程序段的程序代码可以存储于计算机装置3的存储器31中,并由至少一个处理器32所执行,以实现双词典模型初始化功能(详见图1描述)。
本实施例中,所述模型初始化系统30根据其所执行的功能,可以被划分为多个功能模块。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
尽管未示出,所述计算机装置3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述计算机装置3的操作系统以及安装的各类应用程序(如所述的模型初始化系统30)、程序代码等,例如,上述的各个模块。
在本申请的一个实施例中,所述存储器31存储一个或多个指令(即至少一个指令),所述至少一个指令被所述至少一个处理器32所执行以实现图1所示的双词典模型初始化的目的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照以上较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (4)
1.一种用于人工智能文本分析的双词典模型的初始化方法,其特征在于,所述方法包括:
获取目标文本;
初始参数体系(γ,θw|c);
其中,对所述初始词语词典的构建包括:获取所述目标文本中的每个字符al,获得所述目标文本中所有字符组成的字符集合其中,1≤l≤L;根据所述目标文本中词语的先验信息,设定词语集合按照预设的第一规则获得词语集合按照预设的第二规则获得词语集合所述初始词语词典其中, 表示正整数;wn是由所述集合中的字符组成的词语;
所述预设的第二规则包括:利用预先训练的弱分类器,对所述目标文本中长度不超过所述且频率不低于所述的词语进行提取;确定先验分类概率πc|w,其中,c表示所述目标文本中的词语类别,w表示所述弱分类器提取的词语,πc|w表示给定词语w的情况下,词语类别c的先验分类概率;及选择所述弱分类器提取的词语中,所述先验分类概率πc|w超过预设的分类阈值的词语,获得所述词语集合
对所述初始超模式词典的构建包括:设定对所述目标文本中的超模式进行提取时的终止符e;设定词语类别的集合为词语类别集合 其中ck表示命名实体的类别,c0表示区别于所述命名实体的背景词的类别;根据所述目标文本中超模式的先验信息,设定超模式集合按照预设的第三规则获得超模式集合所述初始超模式词典
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至2中任意一项所述的用于人工智能文本分析的双词典模型的初始化方法。
4.一种计算机装置,其特征在于,该计算机装置包括存储器和至少一个处理器,所述存储器中存储有至少一个指令,所述至少一个指令被所述至少一个处理器执行时实现如权利要求1至2中任意一项所述的用于人工智能文本分析的双词典模型的初始化方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021104826684 | 2021-04-30 | ||
CN202110482668 | 2021-04-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113269271A CN113269271A (zh) | 2021-08-17 |
CN113269271B true CN113269271B (zh) | 2022-11-15 |
Family
ID=77235107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667864.9A Active CN113269271B (zh) | 2021-04-30 | 2021-06-16 | 用于人工智能文本分析的双词典模型的初始化方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113269271B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925884A (zh) * | 2021-03-09 | 2021-06-08 | 海南电网有限责任公司 | 一种基于自然语言处理的调度应急知识管理的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893582A (zh) * | 2016-04-01 | 2016-08-24 | 深圳市未来媒体技术研究院 | 一种社交网络用户情绪判别方法 |
CN105976056A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向rnn的信息提取系统 |
CN106897459A (zh) * | 2016-12-14 | 2017-06-27 | 中国电子科技集团公司第三十研究所 | 一种基于半监督学习的文本敏感信息识别方法 |
CN109492105A (zh) * | 2018-11-10 | 2019-03-19 | 上海文军信息技术有限公司 | 一种基于多特征集成学习的文本情感分类方法 |
CN110188191A (zh) * | 2019-04-08 | 2019-08-30 | 北京邮电大学 | 一种用于网络社区文本的实体关系图谱构建方法和系统 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2628431C1 (ru) * | 2016-04-12 | 2017-08-16 | Общество с ограниченной ответственностью "Аби Продакшн" | Подбор параметров текстового классификатора на основе семантических признаков |
US11308419B2 (en) * | 2018-08-22 | 2022-04-19 | International Business Machines Corporation | Learning sentiment composition from sentiment lexicons |
-
2021
- 2021-06-16 CN CN202110667864.9A patent/CN113269271B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893582A (zh) * | 2016-04-01 | 2016-08-24 | 深圳市未来媒体技术研究院 | 一种社交网络用户情绪判别方法 |
CN105976056A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 基于双向rnn的信息提取系统 |
CN106897459A (zh) * | 2016-12-14 | 2017-06-27 | 中国电子科技集团公司第三十研究所 | 一种基于半监督学习的文本敏感信息识别方法 |
CN109492105A (zh) * | 2018-11-10 | 2019-03-19 | 上海文军信息技术有限公司 | 一种基于多特征集成学习的文本情感分类方法 |
CN110188191A (zh) * | 2019-04-08 | 2019-08-30 | 北京邮电大学 | 一种用于网络社区文本的实体关系图谱构建方法和系统 |
CN110209793A (zh) * | 2019-06-18 | 2019-09-06 | 佰聆数据股份有限公司 | 一种用于智能识别文本语义的方法 |
Non-Patent Citations (3)
Title |
---|
Chinese Text Sentiment Analysis Based on Extended Sentiment Dictionary;GUIXIAN XU等;《IEEE Access》;20190413;第43749-43762页 * |
Sentiment Analysis Based on Dictionary Approach;Reshma Bhonde等;《International Journal of Emerging Engineering Research and Technology》;20150131;第51-55页 * |
情感词典自动构建方法综述;王科等;《自动化学报》;20160430;第495-511页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113269271A (zh) | 2021-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
CN109522552B (zh) | 一种医疗信息的归一化方法、装置、介质及电子设备 | |
CN112380343A (zh) | 问题解析方法、装置、电子设备及存储介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN112231485A (zh) | 文本推荐方法、装置、计算机设备及存储介质 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111753089A (zh) | 话题聚类方法、装置、电子设备及存储介质 | |
CN112507663A (zh) | 基于文本的判断题生成方法、装置、电子设备及存储介质 | |
CN113269271B (zh) | 用于人工智能文本分析的双词典模型的初始化方法及设备 | |
CN113435582A (zh) | 基于句向量预训练模型的文本处理方法及相关设备 | |
CN116956896A (zh) | 基于人工智能的文本分析方法、系统、电子设备及介质 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 | |
CN113204698A (zh) | 新闻主题词生成方法、装置、设备及介质 | |
CN113360654A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN112989043A (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN110717326B (zh) | 基于机器学习的文本信息作者的识别方法及其装置 | |
CN111062216B (zh) | 命名实体识别方法、装置、终端及可读介质 | |
CN109300550B (zh) | 医学数据关系挖掘方法及装置 | |
CN117422074A (zh) | 一种临床信息文本标准化的方法、装置、设备及介质 | |
CN112668281A (zh) | 基于模板的语料自动化扩充方法、装置、设备及介质 | |
CN112466277A (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN111161861A (zh) | 用于医院后勤运维的短文本数据处理方法、装置 | |
CN114692634A (zh) | 中文命名实体识别及分类方法和装置 | |
CN113420542B (zh) | 对话生成方法、装置、电子设备及存储介质 | |
CN115146064A (zh) | 意图识别模型优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |