CN110222328A - 基于神经网络的分词和词类标注方法、装置、设备及存储介质 - Google Patents

基于神经网络的分词和词类标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110222328A
CN110222328A CN201910277371.7A CN201910277371A CN110222328A CN 110222328 A CN110222328 A CN 110222328A CN 201910277371 A CN201910277371 A CN 201910277371A CN 110222328 A CN110222328 A CN 110222328A
Authority
CN
China
Prior art keywords
participle
speech
neural network
training
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910277371.7A
Other languages
English (en)
Other versions
CN110222328B (zh
Inventor
吴壮伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910277371.7A priority Critical patent/CN110222328B/zh
Priority to PCT/CN2019/103298 priority patent/WO2020206913A1/zh
Publication of CN110222328A publication Critical patent/CN110222328A/zh
Application granted granted Critical
Publication of CN110222328B publication Critical patent/CN110222328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本申请属于人工智能技术领域,提供一种基于神经网络的分词和词类标注方法、装置、计算机设备及存储介质,该方法包括:获取待分词的语料并输入到预先训练的第一DNN神经网络模型中,获取第一DNN神经网络模型响应待分词语料而输出的多个初始分词;计算每个初始分词的内部聚合度和信息熵,将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词。将最终分词输入预先训练的第二DNN神经网络模型以及KNN模型中,用于分析最终分词的候选词类及候选词词类概率和相似词的词类及相似词词类概率,并返回概率最高的词类为最终分词的词类。本实施例在分词的同时完成词性标注的工作,进一步提高分词的精度,针对不同的场景提供最契合该场景的分词结果。

Description

基于神经网络的分词和词类标注方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及自然语言处理技术领域,尤其 涉及一种基于神经网络的分词和词类标注方法、装置、计算机设备及存储介 质。
背景技术
现有技术中,分词主要有基于规则的分词和基于统计的分词。基于规则 的分词有正向最大匹配、反向最大匹配、双向最大匹配、最短切分数切分、 基于规则集合的切分等等。分词基于既有词库,在有些特定的场景下,分词 效果不佳,容易出现歧义。例如,“严守一把手机关了”,根据上述正向最 大匹配、反向最大匹配、双向最大匹配等分词方法,分词结果为“严守/一把 手/机关/了”,而实际分词结果为“严守一/把/手机/关了”。
发明内容
本申请实施例的目的在于提出一种基于神经网络的分词和词类标注方 法、装置、计算机设备及存储介质,本方案通过预先训练的第一DNN神经网 络模型对待分词的语料进行划分并筛选符合场景的词汇,提高词汇划分的准 确性,并对划分的词汇进行标注。
为了解决上述技术问题,本申请实施例提供一种基于神经网络的分词和 词类标注方法,采用了如下所述的技术方案:
一种基于神经网络的分词和词类标注方法,包括下述步骤:
获取待分词的语料;
将所述待分词语料输入到预先训练的第一DNN神经网络模型中,获取所 述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词;
计算每个初始分词的内部聚合度和信息熵,将内部聚合度和信息熵都超 过设定的阈值的初始分词确定为最终分词;
将所述最终分词输入预先训练的第二DNN神经网络模型,获取所述第二 DNN神经网络模型响应所述最终分词而输出的候选词类及候选词词类概率;
将所述最终分词输入KNN模型中,获取所述最终分词的相似词,并获取 相似词的词类及计算相似词词类概率;
比较所述候选词词类概率和相似词词类概率,返回概率最高的词类为所 述最终分词的词类。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了 如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程 序,所述处理器执行所述计算机程序时实现上述所述的基于神经网络的分词 和词类标注方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种基于神经网络的分词 和词类标注装置,采用了如下所述的技术方案:
语料获取模块,用于获取待分词的语料;
分词模块,用于将所述待分词语料输入到预先训练的第一DNN神经网络 模型中,获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个 初始分词;
筛选模块,用于计算每个初始分词的内部聚合度和信息熵,将内部聚合 度和信息熵都超过设定的阈值的初始分词确定为最终分词;
候选词类标注模块,用于将所述最终分词输入预先训练的第二DNN神经 网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的候选 词类及候选词词类概率;
相似词类标注模块,用于将所述最终分词输入KNN模型中,获取所述最 终分词的相似词,并获取相似词的词类及计算相似词词类概率;
词类输出模块,用于比较所述候选词词类概率和相似词词类概率,返回 概率最高的词类为所述最终分词的词类。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质, 采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程 序,所述计算机程序被处理器执行时实现上述所述的基于神经网络的分词和 词类标注方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请实施例提供一种基于神经网络的分词和词类标注方法、装置、计 算机设备以及存储介质,该方法包括下述步骤:获取待分词的语料;将所述 待分词语料输入到预先训练的第一DNN神经网络模型中,获取所述第一DNN 神经网络模型响应所述待分词语料而输出的多个初始分词,其中所述初始分 词是所述第一DNN神经网络模型对待分词语料进行多种方式划分的词汇的 汇总,用于提高数据的完整性。然后通过计算每个初始分词的内部聚合度和 信息熵,将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词,以筛选符合语料场景的分词,提高分词的准确性。将所述最终分词输入 预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响应 所述最终分词而输出的候选词类及候选词词类概率;将所述最终分词输入 KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算相似 词词类概率;比较所述候选词词类概率和相似词词类概率,返回概率最高的 词类为所述最终分词的词类。本发明实施例在分词的同时完成词性标注的工 作,进一步提高分词的精度,针对不同的场景提供最契合该场景的分词结果。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需 要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的基于神经网络的分词和词类标注方法的一个实施例的 流程图;
图3是本申请的所述第一DNN神经网络模型的一个训练方式的流程图;
图4是图3中步骤304的一种具体实施方式的流程图;
图5是图2中步骤204的一种具体实施方式的流程图;
图6是图2中步骤205的一种具体实施方式的流程图;
图7是根据本申请的基于神经网络的分词和词类标注装置的一个实施例 的结构示意图;
图8是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技 术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的 术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的 说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们 的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或 上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于 描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或 特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该 短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备 选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施 例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对 本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提 供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信 链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互, 以接收或发送消息等,操作基于神经网络的分词和词类标注中的业务及应用。 终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览 器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台 软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电 子设备,包括但不限于用户设备、网络设备或用户设备与网络设备通过网络 相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过 触摸板进行人机交互的移动电子产品,例如智能手机、平板电脑等,所述移 动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。 其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数 值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网 络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务 器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大 量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松 散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联 网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。 当然,本领域技术人员应能理解上述终端设备仅为举例,其他现有的或今后 可能出现的终端设备如可适用于本申请,也应包含在本申请保护范围以内, 并在此以引用方式包含于此。
服务器105可以是一台服务器,或者由若干台服务器组成的服务器集群, 或者是一个云计算服务中心。其也可以是提供各种服务的服务器,例如对终 端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于神经网络的分词和词类标注 方法一般由终端设备执行,相应地,基于神经网络的分词和词类标注装置一 般设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的一种基于神经网络的分词和词类标注 方法的一个实施例的流程图。所述的基于神经网络的分词和词类标注方法, 包括以下步骤:
步骤201,获取待分词的语料。
在本发明实例中,基于神经网络的分词和词类标注方法运行于其上的电 子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式 获取待分词的语料。需要指出的是,上述无线连接方式可以包括但不限于 3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤202:将待分词语料输入到预先训练的第一DNN神经网络模型中, 获取第一DNN神经网络模型响应待分词语料而输出的多个初始分词。
在本发明实施例中,所述第一DNN(Deep Neural Networks,深度神经网络) 神经网络模型对语料进行训练,对所述待分词的语料进行分词,并输出的多 个初始分词。
需要说明的是,所述第一DNN神经网络模型以多种分词方式进行划分, 输出的初始分词是多种划分方式的分词的结果的组合。例如,“严守一把手 机关了”经过多次划分,得到:“严守、严守一、一把、一把手、把手、手机、 机关、关了”等分词组合。
步骤203:计算每个初始分词的内部聚合度和信息熵,将内部聚合度和信 息熵都超过设定的阈值的初始分词确定为最终分词。
在本发明实施例中,对步骤202划分的初始分词进行分析,对所述初始 分词的指标进行统计,如内部聚合度指标和信息熵,并对各个指标综合分析, 用以评估模所述第一DNN神经网络模型的训练效果,并筛选出测试数据集中 精准的词汇内容作为最终分词。
具体的,本实施例通过公式①计算所述初始分词的内部聚合度:
其中,Score_inner为内部聚合度,Count(x)为该初始分词在待分词的语料 中出现的次数;Count(x1)、Count(x2)为该初始分词进一步划分的词汇在语料 中出现的次数,Length(Corpus)为语料的总语句数量。
所述信息熵包括左信息熵和右信息熵,通过公式②计算所述初始分词的 左/右信息熵:
其中,Entropy左/右信息熵值,N为初始分词的左/右划分词汇总数,pi 为所述初始分词的左/右边词汇出现的概率。
在本实施例中,当初始分词的内部聚合度大于1000,且左信息熵和右信 息熵均大于1时,将该该初始分词作为最终分词。
步骤204:将最终分词输入预先训练的第二DNN神经网络模型,获取第 二DNN神经网络模型响应最终分词而输出的候选词类及及候选词词类概率。
在本发明实施例中,所述第二DNN神经网络模型对所述语料的分词结 果,即所述最终分词,进行词类标注,以针对不同的场景提供最契合该场景 的分词结果。如划分词结果为“北大”,可根据场所提供如“北京大学”、 “北大青鸟”、“北京大学附属医院”等契合场景的词汇。
步骤205:将最终分词输入KNN模型中,获取最终分词的相似词,并获 取相似词的词类及计算相似词词类概率。
在本发明实施例中,为提高本发明的分词精确程度,通过KNN(K-NearestNeighbor,K最邻近算法)模型对所述最终分词训练得到多个相似词,并获取所 述相似词的词类以及概率,对所述最终分词的词类标注进行分析,以提高本 发明对词类标注的准确性。
步骤206:比较所述候选词词类概率和相似词词类概率,返回概率最高的 词类为最终分词的词类。
在本发明实施例中,通过综合分析所述第二DNN神经网络模型和所述 KNN模型输出的所述最终分词的词类以及相似词类的概率分布,取概率最大 的词类作为所述最终分词的词类。具体的,本实施例基于第二DNN神经网络 预测的候选词类和KNN模型输出的相似词类进行综合排名,做最终的排名估 计,选择排名最前的词类作为最终的词类。
本实施例通过将待分词的语料输入经过训练的第一DNN神经网络模型, 以多种划分方式对待分词的语料进行划分,获取初始分词。并通过计算和分 析所述初始分词的内部聚合度和信息熵筛选获取最终分词。然后将最终分词 输入到经过训练的第二DNN神经网络模型,标注词类,以针对不同的场景提 供最契合该场景的分词结果。
请参阅图3,图中示出步骤202中第一DNN神经网络模型的训练步骤, 本实施例所述第一DNN神经网络模型的训练步骤,具体如下:
步骤301:获取训练语料。
在本发明实施例中,所述第一DNN神经网络模型以训练语料作为原始语 料数据集作为输入,将多条不定长的语句传入,并且进行对应的特征工程, 变换成对应的向量,然后传入多层神经网络的隐藏层中,以是否作为分词结 果作为输出。
需要说明的是,本实施例可以通过将制定的语料内容,如word文本、PDF 文件等上传到对应的路径中,作为自定义语料库。
步骤302:通过分词工具对训练语料划分训练分词,生成词汇表。
在本发明实施例中,通过分词工具-jieba分词对所述训练语料进行初次划 分,将得到的训练分词并生成词汇表信息,作为初始化的word list。进一步地, 对所述训练语料每次训练划分的训练分词汇总在所述word list中,以根据语 料场景构建更完整的训练集数据。例如,设x为abcde(a、b、c、d、e为特定 的字符),根据划分,可以得到多种组合方式,如按照x1/x2划分方式(将x 划分为两个词),可以得到如(ab/cde)、(a/bcde)、(abc/de)等组合词汇。
需要说明的是,所述word list中获取的训练分词是对原始语料每一次 划分词汇的总汇,划分的训练分词可能跟实际应用场景不符,精确度不高, 需要进一步处理和筛选。例如,“有哪些人参与”第一次划分结果可能为: 有/哪些/人/参与。而第二次划分结果可能为:有/哪些/人参/与。划分结果 需要进一步处理,例如根据场景进一步筛选划分结果。
步骤303:计算词汇表中每个训练分词的内部聚合度和信息熵,并基于计 算结果综合筛选出分词结果。
在本发明实施例中,步骤303也通过公式①计算所述词汇表中每个训练 分词的内部聚合度,通过公式②计算信息熵。具体的,本实施例对每次划分 的结果进行统计。如训练语料为“元宵节将至,宣讲传统美德”,对于“元 宵节将至”的内部聚合度,可根据多种划分方式得到的划分结果计算,如本 实施例包括但不限于以下两种方式进行划分:
一种方式的划分结果为:元宵节/将至,则Count(x)为计算“元宵节将至” 在全文中出现的次数,Count(x1)为计算“元宵节”在全文中出现的次数, Count(x2)为计算“将至”在全文中出现的次数,len(Corpus)为总语句数量。
另一种方式的划分结果为:元宵/节将至,则Count(x)为计算“元宵节将 至”在全文中出现的次数,Count(x1)为计算“元宵”在全文中出现的次数, Count(x2)为计算“节将至”在全文中出现的次数,len(Corpus)为总语句数量。
进一步地,本实施例可对词汇表的训练分词进行二次划分,得到二次划 分词汇,即根据上次划分的结果再做一次划分,直至符合筛选要求。划分的 词汇的内部聚合度的计算公式为:
其中,所述Count(x)为该词汇在语料中出现的次数;Count(x21)和 Count(x22)为所述初始分词Count(x2)的二次划分词汇在语料中出现的次数, Length2(Corpus)为语料的总语句数量。
进一步地,所述信息熵用于测试所述训练词汇的信息量。具体的,本实 施例统计所述训练分词的左信息熵和右信息熵。如:AB,需统计以“AB” 为目标词汇,在其左右边搭配组合的词汇的出现频率,如左边词汇:CAB、 DAB、EAB。右边词汇:ABEE,ABEF、ABCD等。
需要说明的是,当所述训练分词的内部聚合度指标或信息熵指标在阈值 范围内,将所述训练分词保留,作为分词结果的候选结果。
步骤304:将训练语料输入到第一DNN神经网络模型中,分析语料中每个 字符的词位置,获取语料的分词位置的标注结果。
在本发明实施例中,在所述第一DNN神经网络模型中对所述训练语料进 行训练时,对其所有的字符之间位置进行分析,做出分类判断,并通过神经 网络训练得到是否作为分词间隔点的概率并输出。具体的,在第一DNN神经 网络模型的训练神经网络的训练分析时,以0或1进行标注所述字符是否为 分割符。所述第一DNN神经网络模型输出的神经元有1个,用于输出所述字 符作为分词分割符的概率值。比如“深圳市北大医院”,其有6个分割符位 置(相邻两个字符之间的位置为一个分割符),真实的分词结果为“深圳市/ 北大/医院”,经第一DNN神经网络模型的训练分析,第3个和第5个字符的 概率值超过阈值,自动化标注分词位置为[3,5],即分词位置为第3个字符 和第5个字符。
步骤305:当标注结果与分词结果不一致时,反复循环迭代的更新第一DNN神经网络模型中的权重,至标注结果与分词结果一致时,训练结束。
在本发明实施例中,对经过步骤304标注的所述训练语料,通过调整第 一DNN神经网络模型各节点的权重,使分词结果与标注结果高度一致时,结 束训练。
请参阅图4,图中示出图3步骤304的一个实施方式,步骤304将训练语料输 入到第一DNN神经网络模型中,分析语料中每个字符的词位置,获取语料的 分词位置的标注结果,具体包括以下步骤:
步骤3041:提取语料中的字符的词位置特征并向量化,生成特征向量。
在本发明实施例中,对所述待分词的语料中的每个字符进行预测,提取其特 征,并分析其是否符合分词的要求。具体的,所述字符的特征包括但不限于 字符的类型和词位置,其中所述类型包括标点符号、阿拉伯数字、中文数字、 字母等,所述词位置是指所述字符在所述训练语料中所组合的词汇中的位置, 如词汇的开始位置、词汇的中间位置、词汇的结束位置以及该字符能否独立 构成一个词汇等。具体的,在本实施例中,对于标点符号、数字、中文数字 或者字母等类型的字符,进行one-hot编码处理。对于字符的词位置设置词位置标识,如,用B表示该字符是某个词的开始;M表示该字符在某个词的中 间位置;E表示该字符是某个词的结束位置;S表示该字符能独立的构成一个 词。
进一步地,本实施例对所述待分词的语料的每个字符的前10个字符的词位置 进行统计(第一至第九个字符只统计目前存在的词位置),将其组成一个n 元向量,并进行编码,生成特征向量。
步骤3042:将特征向量输入到第一DNN神经网络模型中,第一DNN神经网络 模型采用基于LSTM模型的3层深度学习神经网络,输出字符为分词位置的概 率。
在本发明实施例中,基于LSTM模型的3层深度学习神经网络包括输入 层、隐藏层和输出层,其中,步骤401生成的特征向量输入到所述输入层, 隐藏层单向传递信息,构造线性模型,调整第一DNN神经网络模型各节点的 权重,计算分析每个字符作为分割位置的概率。输出层输出所述字符为分割 位置的概率。
步骤3043:若概率超过预设阈值,则该字符成为分词划分的位置,作为 语料的分词标注。
在本发明实施例通过步骤3042计算输出每个字符作为分割位置的概率, 进一步通过判断该概率值是否超过预设阈值来判断所述字符是否为分割位 置。
需要说明的是,超出阈值的分词方式可能有多种,因此通过所述第一 DNN神经网络模型获得的初始分词结果也可能有多个。例如,“兵乓球拍卖 完了”,其进行多次划分后,获得的初始分词结果可如下:
兵乓-球-拍卖-完-了。
兵乓球-拍卖-完了。
兵乓球拍-卖完-了。
兵乓-球拍-卖完-了。
兵乓球-拍-卖-完-了。
请参阅图5,图中示出步骤204的一个实施方式,步骤204将最终分词输 入预先训练的第二DNN神经网络模型,获取第二DNN神经网络模型响应最 终分词而输出的候选词类及其概率具体包括以下步骤:
步骤2041:获取最终分词在语料中的位置。
步骤2042:将最终分词向量化。
步骤2043:基于最终分词的向量在第二DNN神经网络模型训练获取最 终分词对于模型中设定的词类的概率分布。
步骤2044:选择预设数量的词类作为候选词类。
在本实施例中,针对不同的应用场景,词汇有不同词类的使用范围,经 过词类设定,进一步调节词汇划分的权重,以提高词汇划分的准确度。
本实施例对训练数据集的词汇设定有词类属性,例如,对深圳、中国等词汇, 设定为城市、国家等体现地级的词类。具体地,本实施例采用python包中的 gensim库,对所述最终分词进行向量化,自定义库的词向量模型构建。然后 将所述最终分词的词向量传入所述第二DNN神经网络模型中,实现词类模型 的自动化标注,并获取每个分词的候选词类。
在本实施例的一个可选的实施方式中,获取标注了词类的最终分词的词位置 并向量化,输入到第二DNN神经网络,第二DNN神经网络采用LSTM模型, 通过调整神经网络各节点的权重,使神经网络的损失函数收敛,训练结束并 输出所述最终分词对应各种词类的概率,本实施方式可以得到不同词类的概 率分布,选择概率分布排名前3的词类作为候选词类。
请参阅图6,图中示出步骤205的一个实施方式,步骤205将最终分词输 入KNN模型中,获取最终分词的相似词,并获取相似词的词类及计算概率具 体包括以下步骤:
步骤2051:基于最终分词的词向量,通过欧氏距离公式,获取多个最终 分词的相似词。
步骤2052:获取相似词的词类并计算相似词所属词类的概率分布。
步骤2053:选择预设数量相似词的词类作为候选词类。
在本实施例中,为进一步提高分词准确性,本实施例对所述最终分词多 个相似词,并将所述相似词的词类统计在所述最终分词的词类分析中,以获 取最标准的词类标注。
在本实施例的一个可选实施方式中,基于所述最终词汇的词向量,通过 欧氏距离公式,对所述最终词汇计算筛选10个标注词类的相似词,然后通过 统计这10个相近词所属词类的概率分布,得到排名前3的词类作为所述最终 词汇的候选词类。然后,基于第二DNN神经网络预测的候选词类和KNN的 词类进行综合分析,比较所述候选词词类概率和相似词词类概率,返回概率 最高的词类为所述最终分词的词类。
进一步参考图7,作为对上述图2所示方法的实现,本申请提供了一种基 于神经网络的分词和词类标注装置的一个实施例,该装置实施例与图2所示 的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例所述的基于神经网络的分词和词类标注装置700 包括:语料获取模块701、分词模块702、筛选模块703、候选词类标注模块 704、相似词类标注模块705及词类输出模块706。其中:
语料获取模块701,用于获取待分词的语料;
分词模块702,用于将所述待分词语料输入到预先训练的第一DNN神经 网络模型中,获取所述第一DNN神经网络模型响应所述待分词语料而输出的 多个初始分词;
筛选模块703,用于计算每个初始分词的内部聚合度和信息熵,将内部聚 合度和信息熵都超过设定的阈值的初始分词确定为最终分词;
候选词类标注模块704,用于将所述最终分词输入预先训练的第二DNN 神经网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的 候选词类及候选词词类概率;
相似词类标注模块705,用于将所述最终分词输入KNN模型中,获取所 述最终分词的相似词,并获取相似词的词类及计算相似词词类概率;
词类输出模块706,用于比较所述候选词词类概率和相似词词类概率,返 回概率最高的词类为所述最终分词的词类。
在本发明实施例中,通过语料获取模块701获取待分词的语料,分词模 块702将所述待分词语料输入到预先训练的第一DNN神经网络模型中进行分 词,通过多种方式划分并输出多个初始分词,其中所述初始分词是所述第一 DNN神经网络模型对待分词语料进行多种方式划分的词汇的汇总,用于提高 数据的完整性。然后通过计算每个初始分词的内部聚合度和信息熵,将内部 聚合度和信息熵都超过设定的阈值的初始分词筛选为最终分词,以筛选出符 合语料场景的分词,从而提高分词的准确性。另外,将筛选出的最终分词输 入预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响 应所述最终分词而输出的候选词类及候选词词类概率;将所述最终分词输入 KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算相似 词词类概率;比较所述候选词词类概率和相似词词类概率,返回概率最高的 词类为所述最终分词的词类。本发明实施例在分词的同时完成词性标注的工 作,进一步提高分词的精度,针对不同的场景提供最契合该场景的分词结果。
进一步地,在所述分词模块702中,第一DNN神经网络模型对原始语料 的训练包括:获取训练语料,通过分词工具对所述训练语料划分训练分词, 生成词汇表,计算所述词汇表中每个训练分词的内部聚合度和信息熵,并基 于计算结果综合筛选出分词结果。将所述训练语料输入到所述第一DNN神经 网络模型中,分析所述语料中每个字符的词位置,并在分词位置标注结果。 当所述标注结果与所述分词结果不一致时,反复循环迭代的更新所述第一 DNN神经网络模型中的权重,至所述标注结果与所述分词结果一致时,结束 训练。
具体的,本实施例通过公式①计算所述训练分词的内部聚合度:
其中,Score_inner为内部聚合度,Count(x)为所述训练分词在所述训练语 料中出现的次数;Count(x1)、Count(x2)为所述训练分词进一步划分的词汇在 语料中出现的次数,Length(Corpus)为所述训练语料的总语句数量;
所述信息熵包括左信息熵和右信息熵,通过公式②计算所述训练分词的 左/右信息熵:
其中,Entropy左/右信息熵值,N为所述训练分词的左/右边词汇的数量, pi为所述训练分词的左/右边词汇出现的概率;以及公式③进一步分析所述训 练分词的内部聚合度:
其中,所述Count(x)为该词汇在语料中出现的次数;Count(x21)和 Count(x22)为所述训练分词Count(x2)的二次划分词汇在语料中出现的次数, Length2(Corpus)为语料的总语句数量。
当所述训练分词的内部聚合度或者信息熵超过预设阈值时,将所述训练 分词作为分词结果的候选词汇。
更具体地,所述第一DNN神经网络模型采用基于LSTM模型的3层深 度学习神经网络,分析和输出所述训练语料中的字符的分词位置的概率,并 标注分词结果。
进一步地,所述候选词类标注模块704具体包括分词位置获取子模块, 向量化子模块,候选词类分析子模块和候选词处理子模块。其中,
分词位置获取子模块用于获取所述最终分词在所述语料中的位置;
向量化子模块用于将所述最终分词向量化;
候选词类分析子模块用于基于所述最终分词的向量在所述第二DNN神 经网络模型训练获取所述最终分词对于模型中设定的词类的概率分布;
候选词处理子模块用于选择预设数量的词类作为候选词类。
更进一步地,所述相似词类标注模块705具体包括相似词获取子模块, 相似词类分析子模块和相似词处理子模块,其中,
相似词获取子模块用于基于所述最终分词的词向量,通过欧氏距离公式, 获取多个所述最终分词的相似词;
相似词类分析子模块用于获取所述相似词的词类并计算所述相似词所属 词类的概率分布;
相似词处理子模块用于选择预设数量相似词的词类作为候选词类。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图8, 图8为本实施例计算机设备基本结构框图。
所述计算机设备8包括通过系统总线相互通信连接存储器81、处理器82、 网络接口83。需要指出的是,图中仅示出了具有组件81-83的计算机设备8, 但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者 更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一 种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设 备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设 备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器 等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板 或声控设备等方式进行人机交互。
所述存储器81至少包括一种类型的可读存储介质,所述可读存储介质包 括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访 问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、 电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁 性存储器、磁盘、光盘等。在一些实施例中,所述存储器81可以是所述计算机设备8的内部存储单元,例如该计算机设备8的硬盘或内存。在另一些实施 例中,所述存储器81也可以是所述计算机设备8的外部存储设备,例如该计算 机设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全 数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器81 还可以既包括所述计算机设备8的内部存储单元也包括其外部存储设备。本实 施例中,所述存储器81通常用于存储安装于所述计算机设备8的操作系统和各 类应用软件,例如基于神经网络的分词和词类标注方法的程序代码等。此外, 所述存储器81还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器82在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理 器82通常用于控制所述计算机设备8的总体操作。本实施例中,所述处理器 82用于运行所述存储器81中存储的程序代码或者处理数据,例如运行所述基 于神经网络的分词和词类标注方法的程序代码。
所述网络接口83可包括无线网络接口或有线网络接口,该网络接口83 通常用于在所述计算机设备8与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所 述计算机可读存储介质存储有基于神经网络的分词和词类标注程序,所述基 于神经网络的分词和词类标注程序可被至少一个处理器执行,以使所述至少 一个处理器执行如上述的基于神经网络的分词和词类标注方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务 器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的 实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。 本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使 对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进 行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体 实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替 换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在 其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种基于神经网络的分词和词类标注方法,其特征在于,包括下述步骤:
获取待分词的语料;
将所述待分词语料输入到预先训练的第一DNN神经网络模型中,获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词;
计算每个初始分词的内部聚合度和信息熵,将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词;
将所述最终分词输入预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词词类概率;
将所述最终分词输入KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算相似词词类概率;
比较所述候选词词类概率和相似词词类概率,返回概率最高的词类为所述最终分词的词类。
2.根据权利要求1所述的基于神经网络的分词和词类标注方法,其特征在于,所述第一DNN神经网络模型的训练包括以下步骤:
获取训练语料;
通过分词工具对所述训练语料划分训练分词,生成词汇表;
计算所述词汇表中每个训练分词的内部聚合度和信息熵,并基于计算结果综合筛选出分词结果;
将所述训练语料输入到所述第一DNN神经网络模型中,分析所述语料中每个字符的词位置,并在分词位置标注结果;
当所述标注结果与所述分词结果不一致时,反复循环迭代的更新所述第一DNN神经网络模型中的权重,至所述标注结果与所述分词结果一致时,结束训练。
3.根据权利要求2所述的基于神经网络的分词和词类标注方法,其特征在于,所述第一DNN神经网络模型在训练时对所述训练分词以及对每个所述初始分词的内部聚合度和信息熵计算方式为:
通过公式①计算所述训练分词或者初始分词的内部聚合度:
其中,Score_inner为内部聚合度,Count(x)为所述训练分词在所述训练语料中出现的次数或所述初始分词在所述待分词的语料中出现的次数;Count(x1)、Count(x2)为所述训练分词或者初始分词进一步划分的词汇在语料中出现的次数,Length(Corpus)为所述训练语料或者待分词的语料的总语句数量;
所述信息熵包括左信息熵和右信息熵,通过公式②计算所述训练分词或者初始分词的左/右信息熵:
其中,Entropy左/右信息熵值,N为所述训练分词或者初始分词的左/右边词汇的数量,pi为所述训练分词的左/右边词汇出现的概率;
当初始分词的内部聚合度大于1000,左信息熵和右信息熵均大于1时,将该初始分词作为最终分词;
当所述训练分词的内部聚合度或者信息熵超过预设阈值时,将所述训练分词作为分词结果的候选词汇。
4.根据权利要求3所述的基于神经网络的分词和词类标注方法,其特征在于,所述通过分词工具对所述训练语料划分训练分词,生成词汇表的步骤之后;所述方法还包括:
对词汇表的训练分词进行二次划分,得到二次划分词汇;
通过计算公式③计算所述二次划分词汇的内部聚合度:
其中,所述Count(x)为该词汇在语料中出现的次数;Count(x21)和Count(x22)为所述训练分词Count(x2)的二次划分词汇在语料中出现的次数,Length2(Corpus)为语料的总语句数量。
5.根据权利要求2所述的基于神经网络的分词和词类标注方法,其特征在于,所述将所述训练语料输入到所述第一DNN神经网络模型中,分析所述语料中每个字符的词位置,并在分词位置标注结果的步骤具体包括:
提取所述语料中的字符的词位置特征并向量化,生成特征向量;
将所述特征向量输入到第一DNN神经网络模型中,第一DNN神经网络模型采用基于LSTM模型的3层深度学习神经网络,输出所述字符为分词位置的概率;
若所述概率超过预设阈值,则该字符成为分词划分的位置,作为所述语料的分词标注。
6.根据权利要求1所述的基于神经网络的分词和词类标注方法,其特征在于,所述将所述最终分词输入预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及其概率的步骤,包括:
获取所述最终分词在所述语料中的位置;
将所述最终分词向量化;
基于所述最终分词的向量在所述第二DNN神经网络模型训练获取所述最终分词对于模型中设定的词类的概率分布;
选择预设数量的词类作为候选词类。
7.根据权利要求6所述的基于神经网络的分词和词类标注方法,其特征在于,所述将所述最终分词输入KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算概率的步骤包括:
基于所述最终分词的词向量,通过欧氏距离公式,获取多个所述最终分词的相似词;
获取所述相似词的词类并计算所述相似词所属词类的概率分布;
选择预设数量相似词的词类作为候选词类。
8.一种基于神经网络的分词和词类标注装置,其特征在于,包括:
语料获取模块,用于获取待分词的语料;
分词模块,用于将所述待分词语料输入到预先训练的第一DNN神经网络模型中,获取所述第一DNN神经网络模型响应所述待分词语料而输出的多个初始分词;
筛选模块,用于计算每个初始分词的内部聚合度和信息熵,将内部聚合度和信息熵都超过设定的阈值的初始分词确定为最终分词;
候选词类标注模块,用于将所述最终分词输入预先训练的第二DNN神经网络模型,获取所述第二DNN神经网络模型响应所述最终分词而输出的候选词类及候选词词类概率;
相似词类标注模块,用于将所述最终分词输入KNN模型中,获取所述最终分词的相似词,并获取相似词的词类及计算相似词词类概率;
词类输出模块,用于比较所述候选词词类概率和相似词词类概率,返回概率最高的词类为所述最终分词的词类。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于神经网络的分词和词类标注方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于神经网络的分词和词类标注方法的步骤。
CN201910277371.7A 2019-04-08 2019-04-08 基于神经网络的分词和词类标注方法、装置、设备及存储介质 Active CN110222328B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910277371.7A CN110222328B (zh) 2019-04-08 2019-04-08 基于神经网络的分词和词类标注方法、装置、设备及存储介质
PCT/CN2019/103298 WO2020206913A1 (zh) 2019-04-08 2019-08-29 基于神经网络的分词和词类标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910277371.7A CN110222328B (zh) 2019-04-08 2019-04-08 基于神经网络的分词和词类标注方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110222328A true CN110222328A (zh) 2019-09-10
CN110222328B CN110222328B (zh) 2022-11-22

Family

ID=67822556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910277371.7A Active CN110222328B (zh) 2019-04-08 2019-04-08 基于神经网络的分词和词类标注方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN110222328B (zh)
WO (1) WO2020206913A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717326A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN110795938A (zh) * 2019-11-11 2020-02-14 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN112016319A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 预训练模型获取、疾病实体标注方法、装置及存储介质
CN112580298A (zh) * 2019-09-29 2021-03-30 大众问问(北京)信息科技有限公司 一种标注数据获取方法、装置及设备
CN113971805A (zh) * 2021-12-22 2022-01-25 深圳市迪博企业风险管理技术有限公司 一种结合机器视觉和语义分析的智能阅卷评分方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN109213997A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于双向长短时记忆网络模型的中文分词方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279288B (zh) * 2015-12-04 2018-08-24 深圳大学 一种基于深度神经网络的在线内容推荐方法
KR20170128060A (ko) * 2016-12-13 2017-11-22 반병현 재생되는 음악을 분석하여 멜로디를 추출하는 방법
CN109376335A (zh) * 2018-09-25 2019-02-22 北京大学 一种考虑信息项相似度的信息熵计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN106126512A (zh) * 2016-04-13 2016-11-16 北京天融信网络安全技术有限公司 一种集成学习的网页分类方法及装置
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN109213997A (zh) * 2018-08-16 2019-01-15 昆明理工大学 一种基于双向长短时记忆网络模型的中文分词方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANGGUO SHAO ET AL.: "Domain-Specific Chinese Word Segmentation Based on Bi-Directional Long-Short Term Memory Model", 《IEEE ACCESS》 *
王国龙 等: "中医诊断古文的词性标注与特征重组", 《计算机工程与设计》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717326A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN110717326B (zh) * 2019-09-17 2022-12-23 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置
CN112580298A (zh) * 2019-09-29 2021-03-30 大众问问(北京)信息科技有限公司 一种标注数据获取方法、装置及设备
CN112580298B (zh) * 2019-09-29 2024-05-07 大众问问(北京)信息科技有限公司 一种标注数据获取方法、装置及设备
CN110795938A (zh) * 2019-11-11 2020-02-14 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN110795938B (zh) * 2019-11-11 2023-11-10 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN112016319A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 预训练模型获取、疾病实体标注方法、装置及存储介质
CN112016319B (zh) * 2020-09-08 2023-12-15 平安科技(深圳)有限公司 预训练模型获取、疾病实体标注方法、装置及存储介质
CN113971805A (zh) * 2021-12-22 2022-01-25 深圳市迪博企业风险管理技术有限公司 一种结合机器视觉和语义分析的智能阅卷评分方法

Also Published As

Publication number Publication date
WO2020206913A1 (zh) 2020-10-15
CN110222328B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN110222328A (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN109960726B (zh) 文本分类模型构建方法、装置、终端及存储介质
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN103678431B (zh) 一种基于标准标签和项目评分的推荐方法
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN107436875A (zh) 文本分类方法及装置
CN109558487A (zh) 基于层次性多注意力网络的文档分类方法
CN107102989A (zh) 一种基于词向量、卷积神经网络的实体消歧方法
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN107943847A (zh) 企业关系提取方法、装置及存储介质
CN106709345A (zh) 基于深度学习方法推断恶意代码规则的方法、系统及设备
CN106649688A (zh) 一种图像检索方法及终端
CN104090890A (zh) 关键词相似度获取方法、装置及服务器
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN109918662A (zh) 一种电子资源的标签确定方法、装置和可读介质
CN103713894B (zh) 一种用于确定用户的访问需求信息的方法与设备
Wu et al. A hybrid linear text segmentation algorithm using hierarchical agglomerative clustering and discrete particle swarm optimization
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN105550170A (zh) 一种中文分词方法及装置
CN108874996A (zh) 网站分类方法及装置
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant