CN113255342A - 一种5g移动业务产品名称识别方法及系统 - Google Patents
一种5g移动业务产品名称识别方法及系统 Download PDFInfo
- Publication number
- CN113255342A CN113255342A CN202110654901.2A CN202110654901A CN113255342A CN 113255342 A CN113255342 A CN 113255342A CN 202110654901 A CN202110654901 A CN 202110654901A CN 113255342 A CN113255342 A CN 113255342A
- Authority
- CN
- China
- Prior art keywords
- mobile service
- service product
- determining
- product name
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005520 cutting process Methods 0.000 claims abstract description 83
- 238000001914 filtration Methods 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 46
- 238000002372 labelling Methods 0.000 claims abstract description 31
- 238000005070 sampling Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 208000031361 Hiccup Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- PXUQTDZNOHRWLI-OXUVVOBNSA-O malvidin 3-O-beta-D-glucoside Chemical compound COC1=C(O)C(OC)=CC(C=2C(=CC=3C(O)=CC(O)=CC=3[O+]=2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 PXUQTDZNOHRWLI-OXUVVOBNSA-O 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及一种5G移动业务产品名称识别方法及系统。该方法包括获取5G套餐办理类的通话文本;对通话内容进行预处理,构建单元化数据集;对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;根据标准移动业务产品名称集确定过滤阈值;根据最简移动业务产品集合确定单元切割阈值;利用过滤阈值、单元切割阈值对单元化数据集进行过滤以及切割;对处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;利用训练集训练双向LSTM+CRF模型;根据处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;构建移动业务产品名称字典;本发明能够高效率地进行移动业务产品名称识别。
Description
技术领域
本发明涉及自然语言处理领域,特别是涉及一种5G移动业务产品名称识别方法及系统。
背景技术
随着移动互联网的发展,越来越多的设备接入到移动网络中,新的服务和应用层出不穷,全球移动宽带用户在2018年已经达到90亿,2020年,移动通信网络的容量相比2017年的网络容量上已经增长1000倍。移动通信服务质量已经成为通信行业发展水平评价的一个标准。为了提高移动通信服务质量,在用户群体中深度推广5G技术,需要基于移动5G套餐办理类来话文本,挖掘客户对移动业务产品的倾向度,作为客服人员营销推荐方式考察,并构建开口监控和话术识别推荐系统。因此,移动业务产品名称识别是开口监控和话术识别推荐系统的第一步。
命名实体识别(Name Entity Recognition,NER)又称专名识别,是自然语言处理(Natural Language Processing,NLP)中的一项基础任务。命名实体一般指文本中具有特定意义或指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。
命名实体识别已经开展了多年并且取得一定的成果。早期研究的主要在于基于字典和规则的传统识别,后来到传统机器学习方法,传统机器学习方法模型有隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场模型(Conditional Random Field,CRF),CRF是目前中主流模型之一,优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息,但是只适用于数据量小的场景,并且过于依赖人工标注。
近年来,深度学习和半监督学习成为人工智能领域的热潮,递归神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN)也逐渐成为命名实体识别的主流模型,它们主要处理方式类似,将词或字从离散独热编码表示,映射到低维空间中,成为稠密的特征嵌入,随后将句子的特征嵌入序列输入到RNN或CNN中,用神经网络自动提取特征,然后经过归一化函数(Softmax)来预测每个词或字的标签。但是,基于RNN或者基于CNN方法使得模型的训练成为一个端到端的过程,对参数设置依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个词或字打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的。
移动业务产品名称识别,属于命名实体识别领域的技术,应用在移动业务场景下。现有的数据集为移动5G套餐办理类来话文本,数据集容量大,且存在来话记录不完整、移动业务产品名称占数据集总体比重低等文本质量不高的问题。基于CRF的移动业务产品名称识别模型依赖人工标注,对现有数据未涵盖的移动业务产品名称识别效果低;基于RNN的移动业务产品名称识别模型,只通过特征学习识别移动业务产品名称,但无法高效地利用上下文信息,导致识别的准确率低。
发明内容
本发明的目的是提供一种5G移动业务产品名称识别方法及系统,能够高效率地进行移动业务产品名称识别。
为实现上述目的,本发明提供了如下方案:
一种5G移动业务产品名称识别方法,包括:
获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;
对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;
利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;
根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。
可选地,所述根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值,具体包括:
根据所述最简移动业务产品集合确定所有元素的最小长度;
根据所述最小长度确定所述过滤阈值;
根据标准移动业务产品名称集确定所有元素的最大长度;
根据所述最大长度确定所述单元切割阈值;
对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。
可选地,所述利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集,具体包括:
获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。
可选地,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,具体包括:
对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
根据所述字符特征向量构建字符特征向量字典;
根据所述构建字符特征向量字典,确定所述训练集的特征序列;
根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
根据所述的发射分数矩阵确定标注状态转移矩阵。
可选地,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,之后还包括:
利用所述测试集对所述双向LSTM+CRF模型进行测试。
可选地,所述根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典,具体包括:
将所述移动业务产品名称识别结果集加入到Jieba分词库中,利用所述Jieba分词库对所述处理后的数据集进行分词,得到词集;
利用word2vec中的负采样CBOW模型,提取词集内各个词语之间的相关性;并根据所述相关性确定词向量;
从所述移动业务产品名称识别结果集中确定所述标准移动业务产品名称集中每个元素的代替词;
以所述代替词为簇心,基于余弦相似度公式,构建簇;
将所述移动业务产品名称识别结果集中的元素加入到与其相关性最大的簇心所在簇之中,进而完成移动业务产品名称字典的构建。
一种5G移动业务产品名称识别系统,包括:
通话文本获取模块,用于获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;
单元化数据集构建模块,用于对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
最简移动业务产品集合确定模块,用于获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
阈值确定模块,用于根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;
处理后的数据集确定模块,用于利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
训练集和测试集确定模块,用于对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
训练后的双向LSTM+CRF模型确定模块,用于利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;
移动业务产品名称字典确定模块,用于根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。
可选地,所述阈值确定模块具体包括:
最小长度确定单元,用于根据所述最简移动业务产品集合确定所有元素的最小长度;
过滤阈值确定单元,用于根据所述最小长度确定所述过滤阈值;
最大长度确定单元,用于根据标准移动业务产品名称集确定所有元素的最大长度;
单元切割阈值确定单元,用于根据所述最大长度确定所述单元切割阈值;
阈值校验和固定单元,用于对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。
可选地,所述处理后的数据集确定模块具体包括:
切割前的数据变量参数获取单元,用于获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断单元,用于判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
切割后的数据变量参数确定单元,用于若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
处理后的数据第一确定单元,用于若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
处理后的数据第二确定单元,用于若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
迭代单元,用于若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。
可选地,所述训练后的双向LSTM+CRF模型确定模块具体包括:
字符字典确定单元,用于对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
字符特征向量确定单元,用于对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
字符特征向量字典构建单元,用于根据所述字符特征向量构建字符特征向量字典;
特征序列确定单元,用于根据所述构建字符特征向量字典,确定所述训练集的特征序列;
发射分数矩阵确定单元,用于根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
标注状态转移矩阵确定单元,用于根据所述的发射分数矩阵确定标注状态转移矩阵。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种5G移动业务产品名称识别方法及系统,利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集,提高有效数据容量占文本容量的比重,并为数据的序列标注做准备。对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集,从训练集中挖掘移动业务产品与标注之间的潜在关系;利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,并根据识别结果构建移动业务产品名称字典,本发明通过特征学习,识别移动业务产品名称,并对识别结果进行建模,利用上下文信息对结果重新计算。相比CRF、RNN模型及其他所述方法,本模型具有更高的预测率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种5G移动业务产品名称识别方法流程示意图;
图2为本发明所提供的一种5G移动业务产品名称识别方法的技术路线图;
图3为本发明所提供的实施例中标注的形式示意图;
图4为本发明所提供的实施例中模型的结构示意图;
图5为本发明所提供的实施例中移动业务产品名称字典示意图;
图6为本发明所提供的一种5G移动业务产品名称识别系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种5G移动业务产品名称识别方法及系统,能够高效率地进行移动业务产品名称识别。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种5G移动业务产品名称识别方法流程示意图;图2为本发明所提供的一种5G移动业务产品名称识别方法的技术路线图,如图1和图2所示,本发明所提供的一种5G移动业务产品名称识别方法,包括:
S101,获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;通话文本SN×3={D,F,E},D={d0,d1,...,dN},其中di(1≤i≤N)代表文本的通话内容,即5G套餐办理类来话记录内容;F={f0,f1,...,fN},其中fi(1≤i≤N)代表通话流水号,即5G套餐办理类来话记录编号;E={e0,e1,...,eN},其中ei(1≤i≤N)代表文本类型,即5G套餐办理类最终办理情况。
S102,对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
针对D中每一行文本数据以“||”作为分隔符,并通过标记号记录说话对象及序号,如“0001-客服:”、“0002-客户:”。以D中各句子为单元,删除标记号,构建数据集,并输出结果S'。
S103,获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
口语化处理基于移动公司提供的5G套餐办理类来话文本标注规则,其中,移动公司提供的5G套餐办理类来话文本标注规则如下:
规则一:当出现移动业务产品名称词,以其最简价格缩写为最简表达形式。例如,“一百二十八元五G套餐”最简表达形式为“一二八”、“幺二八”;“七十八元套餐”最简表达形式为“七十八”。
规则二:当移动业务产品名称词中包含“幺”时,均以“一”表述。
规则三:当移动业务产品名称词中包含“5记”、“5际”、“5计”、“5季”、“5寄”等表达形式,均用“5G”表述。
规则四:当表达主体为移动业务产品名称,表达形式存在错误时(如:同音错误:“5G智享套餐”,表达形式为“5G只想套餐”),均用对应业务产品名称表述。
规则五:当数字“一百二十八”、“一百五十八”、“一百九十八”、“二百三十八”、“二百九十八”、“三百九十八”、“五百九十八”、“一百六十九”、“二百六十九”、“三百六十九”、“五百六十九”、“八百六十九”单独存在时,不与量词连接(如“元”、“G”、“分钟”、“条”等等),所述数字均用移动业务产品名称表述。
规则六:当规则五以外数字单独存在时,如“十”、“五百”、“一千”等数字,需要根据实际语义判断是否为移动义务产品名称。
构建最简移动业务产品集合M过程如下:
(1.2.1)采集标准移动业务产品名称集Y(标准移动业务产品名称基于移动官方标准制定)。
(1.2.2)初始化M。
(1.2.3)从Y中取出一个元素y',基于规则一至规则六,确定其在口语描述中的最简表达形式集合Y',Y'={y'1,y'2,y'3...}。
(1.2.4)将集合Y'加入到集合M。
(1.2.5)若Y为空,输出结果M,执行完毕;否则,执行步骤(1.2.3)
S104,根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;过滤阈值小于切割阈值。
S104具体包括:
根据所述最简移动业务产品集合确定所有元素的最小长度;
根据所述最小长度确定所述过滤阈值;
根据标准移动业务产品名称集确定所有元素的最大长度;
根据所述最大长度确定所述单元切割阈值;
对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。
即,以α作为S'预处理的过滤阈值,β作为单元切割阈值,Q={。,?,!,……,,}作为单元切割符号集。
基于M和Y初始化α、β,计算得到M中所有元素的最小长度为l1、Y中所有元素的最大长度为l2,令α为2l1,β为2l2(α>0,β>0,α<β),输出α、β。
具体的校验和固定过程为:
α,β进行抽样校验。在S'={S1',S2',S3'...}中,定义:
条件一:len(Si')≤α;
条件二:len(Si')>β;
使得满足条件一的Si'不包含M中元素;满足条件二的Si'完成切割后,各部分长度都小于β。抽样校验步骤如下:
(1.4.1)从1到n(n由S'单元总数决定)生成0.1*n个元素的随机数集合ξ,并设置递增操作和递减操作的变化量为1。
(1.4.2)读取S'中第i(i∈ξ,1≤i≤n)单元的数据为变量xi,xi长度为变量li。
(1.4.3)li与α,β判断:
若li≤α,且xi包含M中元素,则α递减,返回执行步骤(1.4.1)。
本步骤完成后,若α>0,输出α、β并执行步骤S105;否则跳过S105,并使得S”=S'。
S105,利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
S105具体包括:
获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。
作为一个具体的实施例,处理后的数据集确定的过程为:
(1.5.1)初始化S”,读取S'中第i单元数据为变量xi(i=1,2,3,4...n),对应长度为变量li。
(1.5.2)li与α,β判断:
若α≤li≤β,则将xi加入S”。
若li<α,则执行下一轮判断。
(1.5.3)对S'中所有数据完成处理后,输出S”。
S106,对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
S106具体包括:
如图3所示,采用序列标注法,基于移动领域专家知识,划分移动业务产品类集合C={COM,FLOW,CALL},其中:COM表示移动业务套餐类、FLOW表示移动业务流量类、CALL表示移动业务通话类,标注符号如下表所示:
表1标注符号注释表
标注序号 | 标注符号 | 标注含义 |
标注1 | B-COM | 移动业务套餐类起始标注 |
标注2 | I-COM | 移动业务套餐类中间标注 |
标注3 | B-FLOW | 移动业务流量类起始标注 |
标注4 | I-FLOW | 移动业务流量类中间标注 |
标注5 | B-CALL | 移动业务通话类起始标注 |
标注6 | I-CALL | 移动业务通话类中间标注 |
标注7 | O | 外部标注 |
步骤如下:
(2.1)读取S”前10000单元数据,记录为S”',S”'={Si”'|i=1,2,3,...,10000},并初始化P1,P2。
(2.2)从1至10000内生成3000个元素的随机数集合ξ'={ξi'|i=1,2,...,3000},并以此作为测试集数据的索引。
(2.3)i=1→10000:
(2.4)对P1、P2进行标注,标注形式如以下表格所示,完成标注后将P1、P2输出:
表2.序列标注形式示意表
字符 | 字符1 | 字符2 | ...... | 字符6 | ...... |
标注 | 标注1 | 标注3 | ...... | 标注7 | ...... |
S107,利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;所述模型的结构如图4所示。
S107具体包括:
对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
根据所述字符特征向量构建字符特征向量字典;
根据所述构建字符特征向量字典,确定所述训练集的特征序列;
根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
根据所述的发射分数矩阵确定标注状态转移矩阵。
训练过程如下:
(3.1)实例化步骤2所得训练集P1,计算特征序列se:
(3.1.1)实例化P1为z,对于z中字符,用变量ci表示,其中ci∈z,1≤i≤m,m由z字符个数确定,对于z中标注序列,用变量Seqa表示。统计z中的字符,并根据不同字符出现的次数降序排列,构建字符字典w,其子单元结构为<字符c:字符id>,对w中全部字符按照正态分布(对应取值范围为[low,high))随机采样,构成字符特征向量uc,从而构建字符特征向量字典Glove,<字符id:字符特征向量uc>。
(3.2)以步骤(3.1)所得se为当前步骤的输入,计算κ的发射分数矩阵R':
(3.2.1)初始化模型κ,其中κ由双向LSTM层和CRF层组成。将se作κ中双向LSTM层的各个时间步的输入,计算隐状态序列h3,以单向LSTM模型t时刻的输入为例,设时间状态输入步长为3,其中:st-1,st,st+1表示t-1,t,t+1时刻的输入,ht-1,ht,ht+1表示对应时刻输出的隐藏层结果,W表示权重矩阵,b表示偏置向量,在计算过程中由模型内部算法迭代更新,在本发明中不讲述如何更新迭代W和b。
f(t)表示LSTM模型遗忘门t时刻输出。其输入为前一时刻隐藏层状态ht-1和当前时刻输入信息st计算公式如下:
f(t)=σ(Wf×[ht-1,st]+bf) (3-1)
其中Wf表示遗忘门权重矩阵,bf表示遗忘门偏置向量,σ表示sigmoid激活函数。
i(t)表示LSTM模型记忆门t时刻输出,其输入为前一时刻隐藏层状态ht-1和当前时刻输入信息st,计算公式如下:
i(t)=σ(Wi×[ht-1,st]+bi) (3-2)
其中Wi表示遗忘门权重矩阵,bi表示遗忘门偏置向量,σ表示sigmoid激活函数。
c(t)表示LSTM模型t时刻细胞临时状态,其输入为前一时刻隐藏层状态ht-1和当前时刻输入信息st,计算公式如下:
c(t)=tanh(Wc×[ht-1,st]+bc) (3-3)
其中Wc表示细胞临时状态权重矩阵,bc表示细胞临时状态偏置向量,tanh表示tanh激活函数;
C(t)表示LSTM模型t时刻的细胞状态,其输入为t时刻遗忘门输出f(t)、t-1时刻的细胞状态C(t)、t时刻记忆门输出i(t)以及t时刻细胞临时状态c(t),其计算方式如下:
C(t)=f(t)×C(t-1)+i(t)×c(t) (3-4)
o(t)表示LSTM模型t时刻的输出门结果,其输入为前一时刻隐藏层状态ht-1和当前时刻输入信息st,其计算方式如下:
o(t)=σ(Wo×[ht-1,st]+bo) (3-5)
其中Wo表示输出门权重矩阵,bo输出门偏置向量,σ表示sigmoid激活函数。
结合以上结果,计算t时刻隐藏层结果h(t):
h(t)=o(t)×tanh(C(t)) (3-6)
结合说明书附图3,将se分别输入到正向LSTM、逆向LSTM,分别得到正向隐状态序列h1=(h11,h12,h13,...,h1m)和反向隐状态序列h2=(h21,h22,h23,...,h2m),结合两种不同方向隐状态序列特征,将h1、h2按位置下标所对应的特征向量拼接,得到完整的隐状态序列h3,其中 表示向量拼接操作,如h3为se输入双向LSTM的输出隐藏层结果。
(3.2.2)对h3进行过滤。
将h3内每一个特征向量(1×k,其中k=2×len(uci))经过全连接层,输出的结果为k'长度(k'=7,为标注符号的类型数),从而得到RT,转置后得到R,R每一列表示字符ci对应7类标注的得分。
根据Softmax函数,对R如下处理,得到R':
R'为z的发射分数矩阵,并将R'输出,结果如下:
(3.3)以步骤(3.2)所得R'作为当前步骤的输入,固定模型κ的内部参数T':
CRF层的参数矩阵为标注状态转移矩阵T(k'×k')(k'表示所标注符号的个数),
ti,j(i,j≤k')表示由标注i到标注j转移得分,T的初始化由CRF模型完成,并且经过迭代后,最终确定T'。T'矩阵的优化过程如下实例所示:
定义z为待观测序列,其长度为m。
定义R'为一次迭代中的CRF层的输入,即步骤(3.2)所述双向LSTM层的输出。
定义Seqa为z的实际标注序列,其中a∈{1,2,3,...,mk'}。ba为Seqa标注序列得分,计算ba过程如下:
定义Seqv为编号为v的标注序列,其中v∈{1,2,3...,mk'},bv为Seqv的标注序列得分,计算bv的方式如下:
定义损失函数L:
迭代过程中,根据损失函数L迭代优化T,当L达到最小值时,固定T'为:
S107之后还包括:
利用所述测试集对所述双向LSTM+CRF模型进行测试。
测试过程如下:
当T'固定好后,实例化测试集P2为z,令Seqa为z的实际标注序列。
按照步骤(3.1)所构建的w、Glove字符特征向量字典,获取z的特征序列se。按照步骤(3.2)、步骤(3.3),计算z中标注序列编号为v(v=1,2,3,...,mk')的标注序列得分bv,令index为对应索引,将Seqindex输出。
按照以下公式,计算准确率,作为模型的准确率ε
其中,θ为Seqindex和Seqa符号相同的个数,λ为Seqindex和Seqa符号不同的个数。
通过损失函数L曲线调整模型超参数:batch_size、epoch、hidden_dim、lr、dropout概率,计算并比较不同模型的ε,以ε值最高模型的超参数作为模型κ的超参数。
S108,根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。
S108具体包括:
将所述移动业务产品名称识别结果集加入到Jieba分词库中,利用所述Jieba分词库对所述处理后的数据集进行分词,得到词集;
利用word2vec中的负采样CBOW模型,提取词集内各个词语之间的相关性;并根据所述相关性确定词向量;在提取相关性的过程中,CBOW模型将语料中各词语的语序特征加入到相关性计算,使得相关性计算结果能够反映语序关系(语序关系能够反映出同属一个标准移动业务产品名称下的所有具体业务套餐名称之间的语序距离,如5G智享一百二十八套餐包括五百分钟通话,两者的语序距离比5G智享一百二十八套餐与六百分钟通话的语序距离小);CBOW模型将语料中各词语的语义特征加入到相关性计算,使得相关性计算结果能够反映语义关系(语义关系可由同义词之间的距离反映,如5G智享一百二十八套餐等同于一百二十八元套餐,两者的语义距离比5G智享一百二十八套餐与一百五十八元套餐的语义距离更小)。以相关性的计算结果训练W中所有词语的词向量。
从所述移动业务产品名称识别结果集中确定所述标准移动业务产品名称集中每个元素的代替词;
以所述代替词为簇心,基于余弦相似度公式,构建簇;
余弦相似度公式为:
其中Correlationi,j表示词i与词j的相关性,qi表示词i的词向量,qj表示词j的词向量,||qi||表示词i的词向量长度,||qj||词j的词向量长度。Correlationi,j越大表示两者更具有相关性。以所得的词向量,分别计算U中元素和υ中元素之间的Correlation。
将所述移动业务产品名称识别结果集中的元素加入到与其相关性最大的簇心所在簇之中,进而完成移动业务产品名称字典的构建,并如图5所示。
作为一个具体的实施例,为体现本发明的发明效果,通过如下实施例进行说明:
从**月5G套餐办理类来话文本获取数据源,文本中包括通话流水号、内容、文本类型等表项,按照表项读取数据,得到未经过处理数据集S。删除S中存在的标记号,按照分割符“||”对S进行分割,得到单元化数据集S',如下表所述:
表3数据格式
记录号 | 记录内容 |
1 | 您好高兴您服务。 |
2 | 嗯嗯你好,...... |
3 | 呃,没有变。 |
...... | ...... |
从5G套餐文本标注规则中,获取标准移动业务产品名称集Y,基于规则一到规则六,构建最简移动业务产品集合M。
表4.最简移动业务产品集合示例表
以α作为S'预处理的过滤阈值,β作为切割阈值,Q={。,?,!,……,,}作为切割符号集。α,β初始化基于M和Y,计算得到M中所有元素的最小长度为l1、Y中所有元素的最大长度为l2,α=2l1,β=2l2(α>0,β>0)。在本次实例中,根据上表统计,得到l1=3,l2=12,初始化α=6,β=24(α>0,β>0)。
产生随机数集合ξ,并对α,β进行校验,保证长度小于α的单元中不会出现M中元素,以及切割后所有单元的长度均小于β。本次实例固定的α=4,β=24。对S'中数据进行切割,切割完成后得到数据集S”。
表5切割完成后得到数据集
记录号 | 记录内容 |
1 | 您好高兴您服务。 |
2 | 嗯嗯你好。 |
3 | 从我宏我问我呢我我...... |
4 | 而不是幺五八那个五g套餐吗? |
...... | ...... |
基于移动领域专家知识,划分移动业务产品类C={COM,FLOW,CALL},并按照表2标注符号的含义定义标注符号。加载数据集S”前10000条单元化数据,并初始化P1={},P2={};产生随机数集合ξ'(元素总个数为3000,范围在1至10000);从S”前10000条单元化数据读出以ξ'内元素为索引的数据,并加入到集合P2;剩余7000条已经加载的单元化数据加入到集合P1中;对P1、P2分别标注,标注结果如表6所示。
表6标注数据示例表
实例化P1为序列z,加载z中字符ci。
构建的word2id.pkl,并对其全部字符按照正态分布随机采样,采样范围为[-0.25,0.25),初始化embedding_dim为300,构建字符特征向量字典Glove,根据ci加载对应的字符特征向量,构成特征序列se,se如下表7所示:
表7字符转向量示例表
固定双向LSTM和CRF模型内部参数,详细数据变化过程在此不进行展开解释。最终固定R'和T'如下所示:
根据固定的R'、T',计算z中标注序列编号为v(v=1,2,3,...,mk')的标注序列得分bv,令index为max{b1,b2,b3,...,bmk'}对应索引,将Seqindex输出,并基于移动业务产品类C,对输出结果进行分类,得到以下结果:
表8预测结果示例表
按照下表调整模型超参数:
表9不同超参数模型
对不同模型的识别效果进行对比,最终将固定超参数为batch_size=128,epoch=80,hidden_dim=300,lr=0.01,dropout=0.1。
构建移动业务产品名称字典ψ
构建Jieba分词库如下表所述:
表10关键词库示例表
基于word2vec,把关键词转换成词向量,对标准移动业务产品名称集所有元素,从关键词库中选出代表词,如下所示:
表11标准移动业务产品名称的代表词列表
计算关键词库中所有元素与代表词的距离,并且选择离其最近的代表词所在的簇并加入到该簇中。最终构建移动业务产品名称字典ψ如表12所示。
表12移动业务产品名称字典
与现有技术相比本发明具有的优点及积极效果
(1)本发明将半监督深度学习的原理应用到移动业务场景上,进行5G移动业务产品名称识别,充分利用了移动5G数据的信息。
(2)本发明通过序列标注、LSTM及CRF的方法能够更好地学习5G移动业务产品名称的特征,并以此构建了具有高准确率的移动业务产品名称识别模型,结果表明本方法具有较高的性能与效率。
(3)本发明对于数据标注的工作量依赖小,效率高。本发明实例的数据量为10W,与CRF模型相比,仅标注实例数据量的1%数据,识别的准确率高于CRF模型识别的准确率。
(4)针对未加入训练的移动业务产品名称,本发明能够予以识别,具有较强的泛化性能,将极有效应对移动业务领域后续需求和产品场景的增加。
(5)本发明自动化程序高,可基于已构建的5G移动业务产品名称识别模型,对后续数据进行5G移动业务产品名称进行自动且精准地识别。
(6)本发明同时能对后续移动需求,如“开口监控系统”和“话术识别推荐系统”提供有力支持。
图6为本发明所提供的一种5G移动业务产品名称识别系统结构示意图,如图6所示,本发明所提供的一种5G移动业务产品名称识别系统,包括:
通话文本获取模块601,用于获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;
单元化数据集构建模块602,用于对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
最简移动业务产品集合确定模块603,用于获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
阈值确定模块604,用于根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;
处理后的数据集确定模块605,用于利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
训练集和测试集确定模块606,用于对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
训练后的双向LSTM+CRF模型确定模块607,用于利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;
移动业务产品名称字典确定模块608,用于根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。
所述阈值确定模块604具体包括:
最小长度确定单元,用于根据所述最简移动业务产品集合确定所有元素的最小长度;
过滤阈值确定单元,用于根据所述最小长度确定所述过滤阈值;
最大长度确定单元,用于根据标准移动业务产品名称集确定所有元素的最大长度;
单元切割阈值确定单元,用于根据所述最大长度确定所述单元切割阈值;
阈值校验和固定单元,用于对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。
所述处理后的数据集确定模块605具体包括:
切割前的数据变量参数获取单元,用于获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断单元,用于判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
切割后的数据变量参数确定单元,用于若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
处理后的数据第一确定单元,用于若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
处理后的数据第二确定单元,用于若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
迭代单元,用于若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。
所述训练后的双向LSTM+CRF模型确定模块607具体包括:
字符字典确定单元,用于对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
字符特征向量确定单元,用于对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
字符特征向量字典构建单元,用于根据所述字符特征向量构建字符特征向量字典;
特征序列确定单元,用于根据所述构建字符特征向量字典,确定所述训练集的特征序列;
发射分数矩阵确定单元,用于根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
标注状态转移矩阵确定单元,用于根据所述的发射分数矩阵确定标注状态转移矩阵。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种5G移动业务产品名称识别方法,其特征在于,包括:
获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;
对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;
利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;
根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。
2.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值,具体包括:
根据所述最简移动业务产品集合确定所有元素的最小长度;
根据所述最小长度确定所述过滤阈值;
根据标准移动业务产品名称集确定所有元素的最大长度;
根据所述最大长度确定所述单元切割阈值;
对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。
3.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集,具体包括:
获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。
4.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,具体包括:
对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
根据所述字符特征向量构建字符特征向量字典;
根据所述构建字符特征向量字典,确定所述训练集的特征序列;
根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
根据所述的发射分数矩阵确定标注状态转移矩阵。
5.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,之后还包括:
利用所述测试集对所述双向LSTM+CRF模型进行测试。
6.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典,具体包括:
将所述移动业务产品名称识别结果集加入到Jieba分词库中,利用所述Jieba分词库对所述处理后的数据集进行分词,得到词集;
利用word2vec中的负采样CBOW模型,提取词集内各个词语之间的相关性;并根据所述相关性确定词向量;
从所述移动业务产品名称识别结果集中确定所述标准移动业务产品名称集中每个元素的代替词;
以所述代替词为簇心,基于余弦相似度公式,构建簇;
将所述移动业务产品名称识别结果集中的元素加入到与其相关性最大的簇心所在簇之中,进而完成移动业务产品名称字典的构建。
7.一种5G移动业务产品名称识别系统,其特征在于,包括:
通话文本获取模块,用于获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;
单元化数据集构建模块,用于对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
最简移动业务产品集合确定模块,用于获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
阈值确定模块,用于根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;
处理后的数据集确定模块,用于利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
训练集和测试集确定模块,用于对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
训练后的双向LSTM+CRF模型确定模块,用于利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;
移动业务产品名称字典确定模块,用于根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。
8.根据权利要求7所述的一种5G移动业务产品名称识别系统,其特征在于,所述阈值确定模块具体包括:
最小长度确定单元,用于根据所述最简移动业务产品集合确定所有元素的最小长度;
过滤阈值确定单元,用于根据所述最小长度确定所述过滤阈值;
最大长度确定单元,用于根据标准移动业务产品名称集确定所有元素的最大长度;
单元切割阈值确定单元,用于根据所述最大长度确定所述单元切割阈值;
阈值校验和固定单元,用于对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。
9.根据权利要求7所述的一种5G移动业务产品名称识别系统,其特征在于,所述处理后的数据集确定模块具体包括:
切割前的数据变量参数获取单元,用于获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断单元,用于判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
切割后的数据变量参数确定单元,用于若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
处理后的数据第一确定单元,用于若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
处理后的数据第二确定单元,用于若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
迭代单元,用于若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。
10.根据权利要求7所述的一种5G移动业务产品名称识别系统,其特征在于,所述训练后的双向LSTM+CRF模型确定模块具体包括:
字符字典确定单元,用于对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
字符特征向量确定单元,用于对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
字符特征向量字典构建单元,用于根据所述字符特征向量构建字符特征向量字典;
特征序列确定单元,用于根据所述构建字符特征向量字典,确定所述训练集的特征序列;
发射分数矩阵确定单元,用于根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
标注状态转移矩阵确定单元,用于根据所述的发射分数矩阵确定标注状态转移矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654901.2A CN113255342B (zh) | 2021-06-11 | 2021-06-11 | 一种5g移动业务产品名称识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654901.2A CN113255342B (zh) | 2021-06-11 | 2021-06-11 | 一种5g移动业务产品名称识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255342A true CN113255342A (zh) | 2021-08-13 |
CN113255342B CN113255342B (zh) | 2022-09-30 |
Family
ID=77187636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110654901.2A Active CN113255342B (zh) | 2021-06-11 | 2021-06-11 | 一种5g移动业务产品名称识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255342B (zh) |
Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102662952A (zh) * | 2012-03-02 | 2012-09-12 | 成都康赛电子科大信息技术有限责任公司 | 一种基于层次的中文文本并行数据挖掘方法 |
CN103038728A (zh) * | 2010-03-12 | 2013-04-10 | 纽昂斯通信有限公司 | 例如在移动电话上使用触摸屏的多模式文本输入系统 |
CN103544277A (zh) * | 2013-10-22 | 2014-01-29 | 深圳市捷顺科技实业股份有限公司 | 一种查询目标文本的方法及装置 |
CN106156262A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种搜索信息处理方法及系统 |
CN106446148A (zh) * | 2016-09-21 | 2017-02-22 | 中国运载火箭技术研究院 | 一种基于聚类的文本查重方法 |
CN106469339A (zh) * | 2015-08-14 | 2017-03-01 | 江贻芳 | 一种围绕地理信息应用并提供基础服务的系统 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN107967251A (zh) * | 2017-10-12 | 2018-04-27 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的命名实体识别方法 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN110209819A (zh) * | 2019-06-05 | 2019-09-06 | 江苏满运软件科技有限公司 | 文本分类方法、装置、设备和介质 |
CN110263962A (zh) * | 2019-03-04 | 2019-09-20 | 南京航空航天大学 | 终端区进场态势预测方法 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110322870A (zh) * | 2019-06-19 | 2019-10-11 | 北京信息职业技术学院 | 一种汉语语音信号切分方法和装置 |
CN110413764A (zh) * | 2019-06-18 | 2019-11-05 | 杭州熊猫智云企业服务有限公司 | 基于预建词库的长文本企业名称识别算法 |
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110827935A (zh) * | 2019-10-21 | 2020-02-21 | 清华大学 | 一种中西医医疗大数据的数据质控方法及系统 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN111143553A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种实时文本数据流的特定信息识别方法及系统 |
CN111178073A (zh) * | 2018-10-23 | 2020-05-19 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN111209738A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 一种联合文本分类的多任务命名实体识别方法 |
CN111737979A (zh) * | 2020-06-18 | 2020-10-02 | 龙马智芯(珠海横琴)科技有限公司 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
CN112053052A (zh) * | 2020-08-27 | 2020-12-08 | 中信银行股份有限公司 | 客服业务风险识别方法、装置、设备及存储介质 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN112417849A (zh) * | 2020-09-25 | 2021-02-26 | 深圳市小满科技有限公司 | 英文邮件文本数据处理方法、装置、设备及可存储介质 |
CN112417881A (zh) * | 2020-12-17 | 2021-02-26 | 江苏满运物流信息有限公司 | 物流信息识别方法、装置、电子设备、存储介质 |
CN112735418A (zh) * | 2021-01-19 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种语音交互的处理方法、装置、终端及存储介质 |
US10997369B1 (en) * | 2020-09-15 | 2021-05-04 | Cognism Limited | Systems and methods to generate sequential communication action templates by modelling communication chains and optimizing for a quantified objective |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
-
2021
- 2021-06-11 CN CN202110654901.2A patent/CN113255342B/zh active Active
Patent Citations (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103038728A (zh) * | 2010-03-12 | 2013-04-10 | 纽昂斯通信有限公司 | 例如在移动电话上使用触摸屏的多模式文本输入系统 |
CN102662952A (zh) * | 2012-03-02 | 2012-09-12 | 成都康赛电子科大信息技术有限责任公司 | 一种基于层次的中文文本并行数据挖掘方法 |
CN103544277A (zh) * | 2013-10-22 | 2014-01-29 | 深圳市捷顺科技实业股份有限公司 | 一种查询目标文本的方法及装置 |
CN106156262A (zh) * | 2015-04-28 | 2016-11-23 | 天脉聚源(北京)科技有限公司 | 一种搜索信息处理方法及系统 |
CN106469339A (zh) * | 2015-08-14 | 2017-03-01 | 江贻芳 | 一种围绕地理信息应用并提供基础服务的系统 |
CN106446148A (zh) * | 2016-09-21 | 2017-02-22 | 中国运载火箭技术研究院 | 一种基于聚类的文本查重方法 |
CN106971723A (zh) * | 2017-03-29 | 2017-07-21 | 北京搜狗科技发展有限公司 | 语音处理方法和装置、用于语音处理的装置 |
CN107967251A (zh) * | 2017-10-12 | 2018-04-27 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的命名实体识别方法 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
US20200065374A1 (en) * | 2018-08-23 | 2020-02-27 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
CN111178073A (zh) * | 2018-10-23 | 2020-05-19 | 北京嘀嘀无限科技发展有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN109493977A (zh) * | 2018-11-09 | 2019-03-19 | 天津新开心生活科技有限公司 | 文本数据处理方法、装置、电子设备及计算机可读介质 |
CN110263962A (zh) * | 2019-03-04 | 2019-09-20 | 南京航空航天大学 | 终端区进场态势预测方法 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110209819A (zh) * | 2019-06-05 | 2019-09-06 | 江苏满运软件科技有限公司 | 文本分类方法、装置、设备和介质 |
CN110413764A (zh) * | 2019-06-18 | 2019-11-05 | 杭州熊猫智云企业服务有限公司 | 基于预建词库的长文本企业名称识别算法 |
CN110322870A (zh) * | 2019-06-19 | 2019-10-11 | 北京信息职业技术学院 | 一种汉语语音信号切分方法和装置 |
CN110442684A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于文本内容的类案推荐方法 |
CN110827935A (zh) * | 2019-10-21 | 2020-02-21 | 清华大学 | 一种中西医医疗大数据的数据质控方法及系统 |
CN111143553A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种实时文本数据流的特定信息识别方法及系统 |
CN111209738A (zh) * | 2019-12-31 | 2020-05-29 | 浙江大学 | 一种联合文本分类的多任务命名实体识别方法 |
CN111737979A (zh) * | 2020-06-18 | 2020-10-02 | 龙马智芯(珠海横琴)科技有限公司 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
CN112053052A (zh) * | 2020-08-27 | 2020-12-08 | 中信银行股份有限公司 | 客服业务风险识别方法、装置、设备及存储介质 |
US10997369B1 (en) * | 2020-09-15 | 2021-05-04 | Cognism Limited | Systems and methods to generate sequential communication action templates by modelling communication chains and optimizing for a quantified objective |
CN112417849A (zh) * | 2020-09-25 | 2021-02-26 | 深圳市小满科技有限公司 | 英文邮件文本数据处理方法、装置、设备及可存储介质 |
CN112417881A (zh) * | 2020-12-17 | 2021-02-26 | 江苏满运物流信息有限公司 | 物流信息识别方法、装置、电子设备、存储介质 |
CN112257421A (zh) * | 2020-12-21 | 2021-01-22 | 完美世界(北京)软件科技发展有限公司 | 嵌套实体数据的识别方法、装置及电子设备 |
CN112735418A (zh) * | 2021-01-19 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种语音交互的处理方法、装置、终端及存储介质 |
CN112818118A (zh) * | 2021-01-22 | 2021-05-18 | 大连民族大学 | 基于反向翻译的中文幽默分类模型 |
Non-Patent Citations (5)
Title |
---|
HIROSHI YAMAGUCHI等: "Text Segmentation by Language Using Minimum Description Length", 《互联网ACLANTHOLOGY.ORG/P12-1102.PDF》 * |
岳昆: "基于贝叶斯网的开放世界知识图谱补全", 《计算机工程》 * |
李德玉等: "基于cw2vec-BiLSTM-CRF的汽车名称和属性识别方法", 《山西大学学报(自然科学版)》 * |
汪权彬等: "基于数据增广和复制的中文语法错误纠正方法", 《智能系统学报》 * |
肖勇等: "基于联合神经网络学习的中文电力计量命名实体识别", 《浙江大学学报(理学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255342B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN109918681B (zh) | 一种基于汉字-拼音的融合问题语义匹配方法 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN111651973A (zh) | 一种基于句法感知的文本匹配方法 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN112163089A (zh) | 一种融合命名实体识别的军事高技术文本分类方法及系统 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN113239694B (zh) | 一种基于论元短语的论元角色识别的方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN112699684A (zh) | 命名实体识别方法和装置、计算机可读存储介质及处理器 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN113255342B (zh) | 一种5g移动业务产品名称识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |