CN110633475A - 基于计算机场景的自然语言理解方法、装置、系统和存储介质 - Google Patents

基于计算机场景的自然语言理解方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN110633475A
CN110633475A CN201910923032.1A CN201910923032A CN110633475A CN 110633475 A CN110633475 A CN 110633475A CN 201910923032 A CN201910923032 A CN 201910923032A CN 110633475 A CN110633475 A CN 110633475A
Authority
CN
China
Prior art keywords
natural language
computer
language understanding
tool
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910923032.1A
Other languages
English (en)
Inventor
冯海洪
毛德平
许成亮
王康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Mic Technology Co Ltd
Original Assignee
Anhui Mic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Mic Technology Co Ltd filed Critical Anhui Mic Technology Co Ltd
Priority to CN201910923032.1A priority Critical patent/CN110633475A/zh
Publication of CN110633475A publication Critical patent/CN110633475A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及数据处理领域,尤其涉及一种基于计算机场景的自然语言理解方法、装置、系统和存储介质,该方法包括:首先输入目标文本,然后,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词,接下来,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来,然后,使用sklearn作为意图判定的工具,标注句子所属的类别,最后,对处理的文本内容进行语言翻译,本发明提供一种基于计算机场景的自然语言理解方法,该方法可以应用于计算机端软件,配以相应的硬件设备,将可以为用户提供智能语音交互功能,填补了计算机场景下语音交互技术的空缺,能精确的解析用户的意图。

Description

基于计算机场景的自然语言理解方法、装置、系统和存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种基于计算机场景的自然语言理解方法、装置、系统和存储介质。
背景技术
NLP(Nature Language Process)自然语言处理是当下人工智能领域非常热门的一个分支,NLP大致可以分为三个阶段,其中包括语义理解之前的处理阶段,自然语言理解阶段和理解之后的处理阶段,所以NLU(Nature Language Understand)是NLP的子集,也是这三个阶段中最重要的一环,NLU也被称为语义解码,文中单词的确切含义并不重要,重要的是文本传达的语义信息。
目前,市面上的语音识别设备与软件也特别多,大多局限于移动设备端,如苹果手机端的Siri便是利用了自然语言理解的方法,但是在PC端的语音智能设备还非常的稀缺,这是NLU由于几个原因而具有挑战性,例如语音识别错误,含糊不清,不流利,为了解决这些问题,本发明将采取统计训练模型的方式来解决这些问题,即采用注释数据进行统计模型训练。
发明内容
针对上述存在的问题,本发明的目的是为了填补计算机场景下语音交互的空缺,利用自然语言处理将文本转换为语义表示,为使用PC端办公的人们提供便捷服务,使人们在使用计算机的时候也可以体验语音交互的功能,为了解决上述现有技术中存在的问题,本发明提供一种基于计算机场景的自然语言理解方法,包括以下步骤:
步骤S1:输入目标文本;
步骤S2:使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
步骤S3:使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
步骤S4:采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别;
步骤S5:对处理的文本内容进行语言翻译。
优选的,步骤S3中所述实体为人名,地名,机构名及专有名词。
优选的,步骤S3中所述识别采用的是标准的HMM模型和Viterbi算法。
优选的,步骤S4中所述sklearn包括
分类,找出描述并区分数据类或概念的模型;
Logistic回归,通过Logistic函数将预测映射到0到1中间,因此预测值就可以看成某个类别的概率,所述的Logistic函数是Sigmoid函数;
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维,寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量;
聚类,基于数据的内部结构寻找观察样本的自然族群,即集群。
为达上述目的,本发明还提供一种基于计算机场景的自然语言理解装置,包括
输入模块,用于输入目标文本;
分词模块,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
识别模块,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
意图判定模块,使用sklearn作为意图判定的工具,标注句子所属的类别;
翻译模块,对处理的文本内容进行语言翻译。
为达上述目的,本发明还提供一种基于计算机场景的自然语言理解系统,包括存储器,处理器以及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为达上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
本发明的有益效果:
本发明提供一种基于计算机场景的自然语言理解方法,该方法可以应用于计算机端软件,配以相应的硬件设备,为用户提供智能语音交互功能,填补了计算机场景下语音交互技术的空缺,运用当下最新的人工智能领域的自然语言处理技术,能精确的解析用户的意图。
附图说明
图1为本发明具体实施例1基于计算机场景的自然语言理解方法的整体流程图。
图2为本发明具体实施例2基于计算机场景的自然语言理解装置的结构框图。
具体实施方式
下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1为本发明基于计算机场景的自然语言理解方法提供具体实施例1整体流程图。如图1所示,一种基于计算机场景的自然语言理解方法,包括以下步骤:
步骤S1:输入目标文本。
步骤S2:使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词。
步骤S3:使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来。本步骤中,所述实体为人名,地名,机构名及专有名词;所述识别采用的是标准的HMM模型和Viterbi算法。
步骤S4:采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别。本步骤中,所述sklearn包括
分类,分类(classification)是这样的过程:找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类,分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多,分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中;
Logistic回归,Logistic回归是与线性回归相对应的一种分类方法,且该算法的基本概念由线性回归推导而出,Logistic回归通过Logistic函数(即Sigmoid函数)将预测映射到0到1中间,因此预测值就可以看成某个类别的概率;
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维。寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量;
聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群),使用案例包括细分客户、新闻聚类、文章推荐等。
步骤S5:对处理的文本内容进行语言翻译。
实施例2
图2为本发明基于计算机场景的自然语言理解装置提供具体实施例2的结构框图。如图2所示,本实施例提供一种基于计算机场景的自然语言理解装置,包括
输入模块,用于输入目标文本;
分词模块,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
识别模块,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
意图判定模块,使用sklearn作为意图判定的工具,标注句子所属的类别;
翻译模块,对处理的文本内容进行语言翻译。
实施例3
本实施例提供一种基于计算机场景的自然语言理解系统,包括存储器,处理器以及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
实施例4
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
综上,本发明上述各实施例公开的基于计算机场景的自然语言理解方法、装置、系统和存储介质,可以应用于计算机端软件,配以相应的硬件设备,为用户提供智能语音交互功能,填补了计算机场景下语音交互技术的空缺,运用当下最新的人工智能领域的自然语言处理技术,能精确的解析用户的意图。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或更替,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权力要求书的保护范围为准。

Claims (7)

1.一种基于计算机场景的自然语言理解方法,其特征在于包括以下步骤:
步骤S1:输入目标文本;
步骤S2:使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
步骤S3:使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
步骤S4:采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别;
步骤S5:对处理的文本内容进行语言翻译。
2.如权利要求1所述的基于计算机场景的自然语言理解方法,其特征在于:步骤S3中所述实体为人名,地名,机构名及专有名词。
3.如权利要求1所述的基于计算机场景的自然语言理解方法,其特征在于:步骤S3中所述识别采用的是标准的HMM模型和Viterbi算法。
4.如权利要求1所述的基于计算机场景的自然语言理解方法,其特征在于:步骤S4中所述sklearn包括
分类,找出描述并区分数据类或概念的模型;
Logistic回归,通过Logistic函数将预测映射到0到1中间,因此预测值就可以看成某个类别的概率,所述的Logistic函数是Sigmoid函数;
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维,寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量;
聚类,基于数据的内部结构寻找观察样本的自然族群,即集群。
5.一种基于计算机场景的自然语言理解装置,其特征在于:包括
输入模块,用于输入目标文本;
分词模块,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
识别模块,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
意图判定模块,使用sklearn作为意图判定的工具,标注句子所属的类别;
翻译模块,对处理的文本内容进行语言翻译。
6.一种基于计算机场景的自然语言理解系统,包括存储器,处理器以及存储于存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现上述权利要求1至4中任一所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现上述权利要求1至4中任一所述方法的步骤。
CN201910923032.1A 2019-09-27 2019-09-27 基于计算机场景的自然语言理解方法、装置、系统和存储介质 Pending CN110633475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910923032.1A CN110633475A (zh) 2019-09-27 2019-09-27 基于计算机场景的自然语言理解方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910923032.1A CN110633475A (zh) 2019-09-27 2019-09-27 基于计算机场景的自然语言理解方法、装置、系统和存储介质

Publications (1)

Publication Number Publication Date
CN110633475A true CN110633475A (zh) 2019-12-31

Family

ID=68974522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910923032.1A Pending CN110633475A (zh) 2019-09-27 2019-09-27 基于计算机场景的自然语言理解方法、装置、系统和存储介质

Country Status (1)

Country Link
CN (1) CN110633475A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967334A (zh) * 2020-07-20 2020-11-20 中国人民解放军军事科学院国防科技创新研究院 一种人体意图识别方法、系统以及存储介质
CN112133306A (zh) * 2020-08-03 2020-12-25 浙江百世技术有限公司 一种基于快递用户的应答方法、装置和计算机设备
CN113312928A (zh) * 2021-06-01 2021-08-27 北京字跳网络技术有限公司 文本翻译方法、装置、电子设备和存储介质
CN113569918A (zh) * 2021-07-05 2021-10-29 北京淇瑀信息科技有限公司 分类温度调节方法、装置、电子设备及介质
CN116611452A (zh) * 2023-07-19 2023-08-18 青岛大学 一种根据自然语言描述推荐api的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101803A1 (en) * 2007-11-14 2012-04-26 Ivaylo Popov Formalization of a natural language
CN105786798A (zh) * 2016-02-25 2016-07-20 上海交通大学 一种人机交互中自然语言意图理解方法
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120101803A1 (en) * 2007-11-14 2012-04-26 Ivaylo Popov Formalization of a natural language
CN105786798A (zh) * 2016-02-25 2016-07-20 上海交通大学 一种人机交互中自然语言意图理解方法
CN110209791A (zh) * 2019-06-12 2019-09-06 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨志明等: "深度学习算法在问句意图分类中的应用研究", 《计算机工程与应用》 *
王雅君: ""基于RASA的智能语音对话系统"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967334A (zh) * 2020-07-20 2020-11-20 中国人民解放军军事科学院国防科技创新研究院 一种人体意图识别方法、系统以及存储介质
CN112133306A (zh) * 2020-08-03 2020-12-25 浙江百世技术有限公司 一种基于快递用户的应答方法、装置和计算机设备
CN112133306B (zh) * 2020-08-03 2023-10-03 浙江百世技术有限公司 一种基于快递用户的应答方法、装置和计算机设备
CN113312928A (zh) * 2021-06-01 2021-08-27 北京字跳网络技术有限公司 文本翻译方法、装置、电子设备和存储介质
CN113569918A (zh) * 2021-07-05 2021-10-29 北京淇瑀信息科技有限公司 分类温度调节方法、装置、电子设备及介质
CN116611452A (zh) * 2023-07-19 2023-08-18 青岛大学 一种根据自然语言描述推荐api的方法
CN116611452B (zh) * 2023-07-19 2023-10-24 青岛大学 一种根据自然语言描述推荐api的方法

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN109117777B (zh) 生成信息的方法和装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN112084337A (zh) 文本分类模型的训练方法、文本分类方法及设备
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN111444723A (zh) 信息抽取模型训练方法、装置、计算机设备和存储介质
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
CN112347760A (zh) 意图识别模型的训练方法及装置、意图识别方法及装置
CN112380853A (zh) 业务场景交互方法、装置、终端设备及存储介质
CN116108857B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN113821605A (zh) 一种事件抽取方法
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN112560506A (zh) 文本语义解析方法、装置、终端设备及存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN109063772B (zh) 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN113705192A (zh) 文本处理方法、装置与存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191231

RJ01 Rejection of invention patent application after publication