CN110209812B - 文本分类方法和装置 - Google Patents

文本分类方法和装置 Download PDF

Info

Publication number
CN110209812B
CN110209812B CN201910376447.1A CN201910376447A CN110209812B CN 110209812 B CN110209812 B CN 110209812B CN 201910376447 A CN201910376447 A CN 201910376447A CN 110209812 B CN110209812 B CN 110209812B
Authority
CN
China
Prior art keywords
text
vocabulary
named entity
classified
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910376447.1A
Other languages
English (en)
Other versions
CN110209812A (zh
Inventor
冷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201910376447.1A priority Critical patent/CN110209812B/zh
Publication of CN110209812A publication Critical patent/CN110209812A/zh
Application granted granted Critical
Publication of CN110209812B publication Critical patent/CN110209812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本公开实施例公开了一种文本分类方法和装置,其中,文本分类方法包括:确定待分类的第一文本中的具有命名实体标记的词汇,其中,命名实体标记是对第一文本进行命名实体标注后得到的;基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本;对第二文本进行分词,得到词汇集合;基于词汇集合确定第一文本的类别信息。本公开实施例中,由于第二文本是基于命名实体标记得到的,因此,对第二文本进行分词时可以减少各种文字对分词结果的影响,从而提高了利用词汇集合确定第一文本的类别信息的准确性。

Description

文本分类方法和装置
技术领域
本公开涉及计算机技术领域,尤其是一种文本分类方法和装置。
背景技术
随着智能生活概念的逐步推广、人机交互技术的不断提升,对NLP(NatureLanguage Processing,自然语言处理)技术也提出了更高的要求。短文本分类问题是人机交互场景下,NLP领域中的重要问题。
例如,当用户给出一个诸如语音会话以期望机器给出相应的回复或者执行相关的任务时,这一会话内容将通过信号处理、语音识别等技术转换为文本,成为NLP需要处理的输入。机器要理解用户的会话含义,一般将这一问题转换为短文本的分类问题。短文本分类的准确率和召回率在一定程度上反映了机器对用户会话意图的理解。通常,可以使用有监督的机器学习方法,利用训练样本训练文本分类模型,以对上述短文本进行分类。训练模型所需的训练数据的数量、训练数据的特征形式等,一定程度上影响着文本分类模型的分类准确性。
发明内容
本公开的实施例提供了一种文本分类方法和装置。
根据本公开实施例的一个方面,提供了一种文本分类方法,该方法包括:确定待分类的第一文本中的具有命名实体标记的词汇,其中,命名实体标记是对第一文本进行命名实体标注后得到的;基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本;对第二文本进行分词,得到词汇集合;基于词汇集合确定第一文本的类别信息。
根据本公开实施例的另一个方面,提供了一种文本分类装置,该装置包括:第一确定模块,用于确定待分类的第一文本中的具有命名实体标记的词汇,其中,命名实体标记是对第一文本进行命名实体标注后得到的;转换模块,用于基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本;分词模块,用于对第二文本进行分词,得到词汇集合;第二确定模块,用于基于词汇集合确定第一文本的类别信息。
基于本公开上述实施例提供的文本分类方法和装置,通过利用待分类的第一文本中的具有命名实体标记的词汇对第一文本进行转换,再对转换得到的第二文本进行分词得到词汇集合,利用词汇集合确定第一文本的类别信息,由于第二文本是基于命名实体标记得到的,因此,对第二文本进行分词时可以减少各种文字对分词结果的影响,从而提高了利用词汇集合确定第一文本的类别信息的准确性。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的文本分类方法的流程示意图。
图3是本公开的实施例的文本分类方法的一个应用场景的示意图。
图4是本公开另一示例性实施例提供的文本分类方法的流程示意图。
图5是本公开一示例性实施例提供的文本分类装置的结构示意图。
图6是本公开另一示例性实施例提供的文本分类装置的结构示意图。
图7是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
现有的文本分类方法,通常使用有监督的机器学习方法训练得到分类模型,训练数据的大小分布、训练数据的特征形式在极大程度上影响着分类模型的效果。在现有的解决方案中,大多采用字的N-gram作为模型的输入特征,通过增加训练数据的量来克服短文本特征稀疏性和分散性问题。而增加训练数据的量会消耗较多的存储资源,并增加模型训练的时间,效率较低。
示例性系统
图1示出了可以应用本公开的实施例的文本分类方法或文本分类装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如搜索类应用、网页浏览器应用、购物类应用、即时通信工具等。
终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如对终端设备101上传的文本进行分类的后台文本服务器。后台文本服务器可以对接收到的文本进行处理,得到处理结果(例如类别信息)。
需要说明的是,本公开的实施例所提供的文本分类方法可以由服务器103执行,也可以由终端设备101执行,相应地,文本分类装置可以设置于服务器103中,也可以设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
示例性方法
图2是本公开一示例性实施例提供的文本分类方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
步骤201,确定待分类的第一文本中的具有命名实体标记的词汇。
在本实施例中,电子设备可以确定待分类的第一文本中的具有命名实体标记的词汇。其中,命名实体标记是对第一文本进行命名实体标注后得到的。
作为示例,假设第一文本为“给我播放一首张三的xxx”,其中,“xxx”代表张三的歌曲名称。对第一文本进行命名实体标注后,可以确定具有命名实体标记的词汇为“张三”和“xxx”,分别对应命名实体标记“artist”和“song”。需要说明的是,命名实体标记可以不限于上述英文单词形式,还可以包括但不限于以下至少一种形式:数字、文字、符号等。需要说明的是,电子设备可以按照现有的命名实体标注方法,对第一文本进行命名实体标注,从而得到命名实体标记。
上述第一文本可以是各种类型的文本,例如用户输入的搜索文本、用户输入的评论文本、从某文章中提取的文本等。
步骤202,基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本。
在本实施例中,电子设备可以基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本。
具体地,作为示例,电子设备可以将具有命名实体标记的词汇替换为预设词汇,从而得到第二文本。例如,第一文本为“给我播放一首张三的xxx”,具有命名实体标记的词汇为“张三”和“xxx”,分别对应命名实体标记“artist”和“song”。将词汇“张三”替换为预设词汇“歌手”,将词汇“xxx”替换为预设词汇“歌曲”。从而第二文本为“给我播放一首歌手的歌曲”。
步骤203,对第二文本进行分词,得到词汇集合。
在本实施例中,电子设备可以对第二文本进行分词,得到词汇集合。通常,电子设备可以利用现有的分词方法,对第二文本进行分词。例如,上述分词方法可以包括但不限于以下至少一种:基于词典的方法、基于统计的方法、基于规则的方法等。
作为示例,假设对第二文本“给我播放一首artist的song”进行分词后,得到的词汇集合包括如下词汇:“给、我、播放、一、首、artist、的、song”。
步骤204,基于词汇集合确定第一文本的类别信息。
在本实施例中,电子设备可以基于词汇集合确定第一文本的类别信息。
具体地,作为示例,电子设备可以将上述词汇集合输入预先训练的文本分类模型。其中,文本分类模型可以包括特征提取层和分类层。特征提取层用于提取输入的词汇集合的特征(例如N-gram特征、one-hot特征等),得到特征数据(例如可以为特征向量、特征矩阵等),分类层用于对所提取的特征进行分类,得到类别信息。上述特征提取层可以包括但不限于以下至少一种:词袋模型、word2vec模型、N-gram模型等。上述分类层可以包括以下至少一种:支持向量机、决策树等。
实践中,通常使用N-gram模型,得到N-gram特征,作为分类用的特征。
上述类别信息可以包括但不限于以下至少一种形式的信息:文字、数字、符号等。例如,类别信息可以是文字“请求播放歌曲”、“咨询产品的产地”等。
本实施例中,通过将第一文本转换为第二文本,可以将同一命名实体标记对应的多个词汇替换为相同的形式,从而可以避免各种文字对文本分类的影响,提高文本分类的准确性。由于词汇集合是对第二文本进行分词得到的,而第二文本包括的部分词汇是转换后的,因此,词汇集合中的词汇可以更准确地表征第一文本的语义,从而有助于提高对文本分类的影响。
在上述图2所示实施例的基础上,在一些可选的实现方式中,电子设备可以在确定待分类的第一文本中的具有命名实体标记的词汇之前,执行如下步骤,得到第一文本:
首先,接收用于表征用户发出的语音的音频信息。通常,用户对着电子设备发出语音,电子设备可以接收到用户的语音,并生成音频信息。
然后,对音频信息进行语音识别,得到第一文本。通常,电子设备可以利用现有的语音识别方法对音频信息进行语音识别,得到第一文本。
在一些可选的实现方式中,电子设备可以按照如下步骤确定第一文本中的具有命名实体标记的词汇:
首先,将第一文本输入预先训练的命名实体标注模型,得到命名实体标记。其中,命名实体标记对应于第一文本包括的词汇。其中,命名实体标注模型是基于预设的命名实体词汇数据库包括的命名实体词汇和与命名实体词汇对应的命名实体标记得到的。作为示例,假设第一文本为“给我播放一首张三的xxx”,上述命名实体标注模型可以输出命名实体标记“artist”和“song”,分别对应于词汇“张三”和“xxx”。
命名实体标注模型可以是预先利用预设的训练样本,对初始模型进行训练得到的模型。初始模型可以包括但不限于以下至少一种:LSTM(Long Short-Term Memory,长短期记忆网络)模型、CRF(Conditional Random Fields,条件随机场)模型等。通常,上述命名实体词汇数据库可以嵌入上述命名实体标注模型中,命名实体词汇数据库可以作为命名实体标注模型的特征模板(应用于CRF中)或特征编码(应用于LSTM中),命名实体标注模型可以根据特征模板或特征编码对输出的命名实体标记进行修正,从而提升标注模型的准确率。
在上述步骤202中,在一些可选的实现方式中,电子设备可以将上述具有命名实体标记的词汇替换为对应的命名实体标记,得到第二文本。继续上述举例,第二文本可以为“给我播放一首artist的song”。
参见图3,图3是根据本实施例的文本分类方法的应用场景的一个示意图。在图3的应用场景中,电子设备301首先接收到用户使用电子设备301输入的待分类的第一文本302(例如“给我播放一首张三的xxx”),并对第一文本302进行命名实体标注,得到命名实体标记“artist”和“song”,分别对应于词汇“张三”和“xxx”。然后,电子设备301可以基于词汇“张三”和“xxx”,对第一文本302进行转换,得到第二文本303。例如,可以将“张三”和“xxx”替换为对应的命名实体标记“artist”和“song”,得到第二文本303,即,“给我播放一首artist的song”。再然后,对第二文本进行分词,得到词汇集合304,包括以下词汇:“给、我、播放、一、首、artist、的、song”。最后,电子设备301基于词汇集合确定第一文本302的类别信息305(例如文字“请求播放歌曲”)。例如,将词汇集合输入预先训练的文本分类模型,得到类别信息305。电子设备301可以进一步根据类别信息305执行相应的操作,例如可以输出音乐播放菜单,供用户选择。
本公开的上述实施例提供的方法,通过利用待分类的第一文本中的具有命名实体标记的词汇对第一文本进行转换,再对转换得到的第二文本进行分词得到词汇集合,利用词汇集合确定第一文本的类别信息,由于第二文本是基于命名实体标记得到的,因此,对第二文本进行分词时可以减少各种文字对分词结果的影响,从而提高了利用词汇集合确定第一文本的类别信息的准确性。
如图4所示,在上述图2所示实施例的基础上,步骤204可包括如下步骤:
步骤2041,确定词汇集合对应的词汇特征向量集合。
在本实施例中,电子设备可以确定词汇集合对应的词汇特征向量集合。其中,词汇特征向量集合中的词汇特征向量可以用于表征词汇集合中的词汇。具体地,电子设备可以按照各种方式确定词汇集合对应的词汇特征向量集合。例如,电子设备可以利用预设的词汇特征向量提取方法,确定词汇特征向量。上述预设的词汇特征向量提取方法可以包括但不限于以下至少一种:one-hot特征提取方法、基于神经网络的特征提取方法、N-gram特征提取方法等。
在一实施例中,通常可以使用N-gram特征提取方法,确定词汇的N-gram特征。N-gram模型基于这样一种假设,某个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram(即N=2)和三元的Tri-Gram(即N=3)。通过N-gram特征提取方法,可以从词汇集合中的首个词汇开始到最后一个词汇结束,依次选取以当前词汇为基础的连续N个词汇,根据这N个词汇,得到当前词汇的词汇特征向量,从而进一步汇总得到词汇特征向量集合。
步骤2042,对第二文本进行词性标注,得到词性标记集合,以及基于词性标记集合确定词性特征向量集合。
在本实施例中,电子设备可以对第二文本进行词性标注,得到词性标记集合,以及基于词性标记集合确定词性特征向量集合。其中,对文本进行词性标注的方法是目前广泛研究和应用的公知技术,在此不再赘述。
电子设备可以基于词性标记集合,按照各种方式确定词性特征向量集合。例如,每个词性标记可以对应于预设的特征向量,该向量可以用于表征词性。电子设备可以确定每个词汇对应的特征向量作为词性特征向量,从而得到词性特征向量集合。
在一实施例中,通常可以使用N-gram特征提取方法,确定词性的N-gram特征。与词汇的N-gram特征类似,这里认为某个词的词性只与前面N-1个词的词性相关,而与其它任何词的词性都不相关,整句的词性的概率就是各个词的词性出现概率的乘积。这些概率可以通过直接从语料中统计N个词性同时出现的次数得到。通过N-gram特征提取方法,可以从词汇集合中的首个词汇开始到最后一个词汇结束,依次选取以当前词汇的词性为基础的连续N个词汇的词性,根据这N个词汇的词性,得到当前词汇的词性特征向量,从而进一步汇总得到词性特征向量集合。
作为示例,假设词汇集合包括如下词汇:“给、我、播放、一、首、artist、的、song”,对词汇集合包括的词汇进行词性标注后,得到如下词性标记集合:“v、r、v、m、q、ws、u、ws”。词性标记集合包括的词性标记分别对应于一种词性。例如,v对应动词词性,m对应数量词词性。针对各个词汇的词性,所得到的词性的N-gram特征可以反映文本的语法结构特征,如“v-r”之间的结构特征、“r-v”之间的结构特征等。
步骤2043,基于词性特征向量集合和词汇特征向量集合,对第一文本进行分类,得到第一文本的类别信息。
在本实施例中,电子设备可以基于词性特征向量集合和词汇特征向量集合,对第一文本进行分类,得到第一文本的类别信息。
具体地,电子设备可以利用预先训练的分类模型(例如神经网络模型、支持向量机、决策树等)对第一文本进行分类。
作为示例,本步骤可以如下执行:将词汇特征向量集合输入预先训练的第一分类模型(用于对词汇特征向量集合进行分类),得到第一分类结果。将词性特征向量集合输入预先训练的第二分类模型(用于对词性特征向量集合进行分类),得到第二分类结果。第一分类结果和第二分类结果可以分别包括多个概率值,每个概率值对应一个类别信息,将最大的概率值对应的类别信息确定为第一文本的类别信息。
在一些可选的实现方式中,电子设备可以按照如下步骤对词性特征向量集合和词汇特征向量集合进行分类,得到第一文本的类别信息:
步骤一,将词性特征向量集合和词汇特征向量集合合并,得到待分类特征向量集合。电子设备可以将两个向量集合合并为一个向量集合,从而将合并得到的向量集合确定为待分类特征向量集合。本步骤得到的待分类特征向量集合由于是基于词性特征向量和词汇特征向量得到的,因此,待分类特征向量集合可以同时表征词汇和词汇的词性。从而在后续进行文本分类时,提高文本分类的准确性。
步骤二,从待分类特征向量集合中选择目标待分类特征向量。具体地,作为示例,电子设备可以将每个待分类特征向量均确定为目标待分类特征向量。
在一些可选的实现方式中,步骤二可以按照如下步骤执行:
首先,确定每个待分类特征向量的评分。其中,评分用于表征待分类特征向量对应的词汇与第一文本的语义的关联程度。具体的,电子设备可以利用如下至少一种方法,得到待分类特征向量的评分:卡方值计算方法、互信息计算方法等。通常,待分类特征向量的评分越大,表征待分类特征向量对应的词汇与第一文本的语义的关联程度越高,即该词汇越能代表第一文本的语义。作为示例,假设第一文本为“给我播放一首张三的xxx”,词汇“播放”的对应的评分为0.5,词汇“我”对应的评分为0.05,则词汇“播放”与第一文本的语义相关程度较大。
然后,基于每个待分类特征向量的评分,从所得到的待分类特征向量中选择目标待分类特征向量。电子设备可以按照各种方式选择目标待分类特征向量,例如,可以从各个待分类特征向量中,选择评分大于等于预设的评分阈值的待分类特征向量作为目标待分类特征向量。通过利用评分选择目标待分类特征向量,可以有针对性地利用词汇集合中的与第一文本的语义相关程度较大的词汇对第一文本进行分类,从而可以减少一些低信息量的词汇对分类的干扰,提高文本分类的准确性。
步骤三,将目标待分类特征向量输入预先训练的分类模型,得到第一文本的类别信息。
具体地,上述分类模型可以由本实施例的执行主体或其他电子设备,利用机器学习方法,将预设的训练样本集合中的训练样本包括的样本待分类特征向量作为输入,将与输入的样本待分类特征向量对应的样本类别信息作为期望输出,对初始模型(例如循环神经网络(RNN,Recurrent Neural Network),LSTM模型等)进行训练,针对每次训练输入的样本待分类特征向量,可以得到实际输出。其中,实际输出是初始模型实际输出的数据,用于表征样本类别信息。然后,上述执行主体可以采用梯度下降法和反向传播法,基于实际输出和期望输出,调整初始模型的参数,将每次调整参数后得到的模型作为下次训练的初始模型,并在满足预设的训练结束条件(例如损失值小于等于预设损失值阈值、训练次数大于等于预设次数等)的情况下,结束训练,从而训练得到上述分类模型。
本公开的上述实施例提供的方法,通过确定词汇特征向量集合和词性特征向量集合,利用词汇特征向量集合和词性特征向量集合进行文本分类,由于词性特征向量可以反映句子的语法结构,因此可以进一步提高对文本进行分类的准确性。
本公开实施例提供的任一种文本分类方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种文本分类方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种文本分类方法。下文不再赘述。
示例性装置
图5是本公开一示例性实施例提供的文本分类装置的结构示意图。本实施例可应用在电子设备上,如图5所示,文本分类装置包括:第一确定模块501,用于确定待分类的第一文本中的具有命名实体标记的词汇,其中,命名实体标记是对第一文本进行命名实体标注后得到的;转换模块502,用于基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本;分词模块503,用于对第二文本进行分词,得到词汇集合;第二确定模块504,用于基于词汇集合确定第一文本的类别信息。
在本实施例中,第一确定模块501可以确定待分类的第一文本中的具有命名实体标记的词汇。其中,命名实体标记是对第一文本进行命名实体标注后得到的。
作为示例,假设第一文本为“给我播放一首张三的xxx”,其中,“xxx”代表张三的歌曲名称。对第一文本进行命名实体标注后,可以确定具有命名实体标记的词汇为“张三”和“xxx”,分别对应命名实体标记“artist”和“song”。需要说明的是,命名实体标记可以不限于上述英文单词形式,还可以包括但不限于以下至少一种形式:数字、文字、符号等。
上述第一文本可以是各种类型的文本,例如用户输入的搜索文本、用户输入的评论文本、从某文章中提取的文本等。
在本实施例中,转换模块502可以基于具有命名实体标记的词汇,对第一文本进行转换,得到第二文本。
具体地,作为示例,转换模块502可以将具有命名实体标记的词汇替换为预设词汇,从而得到第二文本。例如,第一文本为“给我播放一首张三的xxx”,具有命名实体标记的词汇为“张三”和“xxx”,分别对应命名实体标记“artist”和“song”。将词汇“张三”替换为预设词汇“歌手”,将词汇“xxx”替换为预设词汇“歌曲”。从而第二文本为“给我播放一首歌手的歌曲”。
在本实施例中,分词模块503可以对第二文本进行分词,得到词汇集合。通常,分词模块503可以利用现有的分词方法,对第二文本进行分词。例如,上述分词方法可以包括但不限于以下至少一种:基于词典的方法、基于统计的方法、基于规则的方法等。
作为示例,假设对第二文本“给我播放一首artist的song”进行分词后,得到的词汇集合包括如下词汇:“给、我、播放、一、首、artist、的、song”。
在本实施例中,第二确定模块504可以基于词汇集合确定第一文本的类别信息。
具体地,作为示例,第二确定模块504可以将上述词汇集合输入预先训练的文本分类模型。其中,文本分类模型可以包括特征提取层和分类层。特征提取层用于提取输入的词汇集合的特征(例如N-gram特征、one-hot特征等),得到特征数据(例如可以为特征向量、特征矩阵等),分类层用于对所提取的特征进行分类,得到类别信息。上述特征提取层可以包括但不限于以下至少一种:词袋模型、word2vec模型、N-gram模型等。上述分类层可以包括以下至少一种:支持向量机、决策树等。
在一些实施例中,通常使用N-gram模型,得到N-gram特征,作为文本分类用的特征。
参照图6,图6是本公开另一示例性实施例提供的文本分类装置的结构示意图。
在一些可选的实现方式中,第一确定模块501可以进一步用于:将第一文本输入预先训练的命名实体标注模型,得到命名实体标记,其中,命名实体标记对应于第一文本包括的词汇,其中,命名实体标注模型是基于预设的命名实体词汇数据库包括的命名实体词汇和与命名实体词汇对应的命名实体标记得到的。
在一些可选的实现方式中,转换模块502可以包括:替换单元5021,用于将具有命名实体标记的词汇替换为对应的命名实体标记,得到第二文本。
在一些可选的实现方式中,第二确定模块504包括:确定单元5041,用于确定词汇集合对应的词汇特征向量集合;词性标注单元5042,用于对第二文本进行词性标注,得到词性标记集合,以及基于词性标记集合确定词性特征向量集合;分类单元5043,用于基于词性特征向量集合和词汇特征向量集合,对第一文本进行分类,得到第一文本的类别信息。
在一些可选的实现方式中,分类单元5043包括:合并子单元50431,用于将词性特征向量集合和词汇特征向量集合合并,得到待分类特征向量集合;选择子单元50432,用于从待分类特征向量集合中选择目标待分类特征向量;分类子单元50433,用于将目标待分类特征向量输入预先训练的分类模型,得到第一文本的类别信息。
在一些可选的实现方式中,选择子单元50432进一步用于:确定每个待分类特征向量的评分,其中,评分用于表征待分类特征向量对应的词汇与第一文本的语义的关联程度;基于每个待分类特征向量的评分,从所得到的待分类特征向量中选择目标待分类特征向量。在一些可选的实现方式中,文本分类装置还包括:接收模块505,用于接收用于表征用户发出的语音的音频信息;识别模块506,用于对音频信息进行语音识别,得到第一文本。
本公开上述实施例提供的文本分类装置,通过利用待分类的第一文本中的具有命名实体标记的词汇对第一文本进行转换,再对转换得到的第二文本进行分词得到词汇集合,利用词汇集合确定第一文本的类别信息,由于第二文本是基于命名实体标记得到的,因此,对第二文本进行分词时可以减少各种文字对分词结果的影响,从而提高了利用词汇集合确定第一文本的类别信息的准确性。
示例性电子设备
下面,参考图7来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
图7图示了根据本公开实施例的电子设备的框图。
如图7所示,电子设备700包括一个或多个处理器701和存储器702。
处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备700中的其他组件以执行期望的功能。
存储器702可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器701可以运行程序指令,以实现上文的本公开的各个实施例的文本分类方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备700还可以包括:输入装置703和输出装置704,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置703可以是上述的鼠标、键盘、麦克风等设备,用于输入文本。在该电子设备是单机设备时,该输入装置703可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的文本。
该输出装置704可以向外部输出各种信息,包括确定出的类别信息。该输出设备704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备700中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备700还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本分类方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的文本分类方法中的步骤。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (14)

1.一种文本分类方法,包括:
确定待分类的第一文本中的具有命名实体标记的词汇,其中,所述命名实体标记是对所述第一文本进行命名实体标注后得到的;
基于所述具有命名实体标记的词汇,对所述第一文本进行转换,得到第二文本;
对所述第二文本进行分词,得到词汇集合;
基于所述词汇集合确定所述第一文本的类别信息;
所述基于所述词汇集合确定所述第一文本的类别信息,包括:
确定所述词汇集合对应的词汇特征向量集合;
对所述第二文本进行词性标注,得到词性标记集合,以及基于所述词性标记集合确定词性特征向量集合;
基于所述词性特征向量集合和所述词汇特征向量集合,对所述第一文本进行分类,得到所述第一文本的类别信息。
2.根据权利要求1所述的方法,其中,所述确定待分类的第一文本中的具有命名实体标记的词汇,包括:
将所述第一文本输入预先训练的命名实体标注模型,得到命名实体标记,其中,所述命名实体标记对应于所述第一文本包括的词汇,其中,所述命名实体标注模型是基于预设的命名实体词汇数据库包括的命名实体词汇和与命名实体词汇对应的命名实体标记得到的。
3.根据权利要求1所述的方法,其中,所述基于所述具有命名实体标记的词汇,对所述第一文本进行转换,得到第二文本,包括:
将所述具有命名实体标记的词汇替换为对应的命名实体标记,得到第二文本。
4.根据权利要求1所述的方法,其中,所述基于所述词性特征向量集合和所述词汇特征向量集合,对所述第一文本进行分类,得到所述第一文本的类别信息,包括:
将所述词性特征向量集合和所述词汇特征向量集合合并,得到待分类特征向量集合;
从所述待分类特征向量集合中选择目标待分类特征向量;
将所述目标待分类特征向量输入预先训练的分类模型,得到所述第一文本的类别信息。
5.根据权利要求4所述的方法,其中,所述从所得到的待分类特征向量中选择目标待分类特征向量,包括:
确定每个待分类特征向量的评分,其中,评分用于表征待分类特征向量对应的词汇与第一文本的语义的关联程度;
基于所述每个待分类特征向量的评分,从所得到的待分类特征向量中选择目标待分类特征向量。
6.根据权利要求1-5之一所述的方法,其中,在所述确定待分类的第一文本中的具有命名实体标记的词汇之前,所述方法还包括:
接收用于表征用户发出的语音的音频信息;
对所述音频信息进行语音识别,得到第一文本。
7.一种文本分类装置,包括:
第一确定模块,用于确定待分类的第一文本中的具有命名实体标记的词汇,其中,所述命名实体标记是对所述第一文本进行命名实体标注后得到的;
转换模块,用于基于所述具有命名实体标记的词汇,对所述第一文本进行转换,得到第二文本;
分词模块,用于对所述第二文本进行分词,得到词汇集合;
第二确定模块,用于基于所述词汇集合确定所述第一文本的类别信息;
所述第二确定模块包括:
确定单元,用于确定所述词汇集合对应的词汇特征向量集合;
词性标注单元,用于对所述第二文本进行词性标注,得到词性标记集合,以及基于所述词性标记集合确定词性特征向量集合;
分类单元,用于基于所述词性特征向量集合和所述词汇特征向量集合,对所述第一文本进行分类,得到所述第一文本的类别信息。
8.根据权利要求7所述的装置,其中,所述第一确定模块进一步用于:
将所述第一文本输入预先训练的命名实体标注模型,得到命名实体标记,其中,所述命名实体标记对应于所述第一文本包括的词汇,其中,所述命名实体标注模型是基于预设的命名实体词汇数据库包括的命名实体词汇和与命名实体词汇对应的命名实体标记得到的。
9.根据权利要求7所述的装置,其中,所述转换模块包括:
替换单元,用于将所述具有命名实体标记的词汇替换为对应的命名实体标记,得到第二文本。
10.根据权利要求7所述的装置,其中,所述分类单元包括:
合并子单元,用于将所述词性特征向量集合和所述词汇特征向量集合合并,得到待分类特征向量集合;
选择子单元,用于从所述待分类特征向量集合中选择目标待分类特征向量;
分类子单元,用于将所述目标待分类特征向量输入预先训练的分类模型,得到所述第一文本的类别信息。
11.根据权利要求10所述的装置,其中,所述选择子单元进一步用于:
确定每个待分类特征向量的评分,其中,评分用于表征待分类特征向量对应的词汇与第一文本的语义的关联程度;
基于所述每个待分类特征向量的评分,从所得到的待分类特征向量中选择目标待分类特征向量。
12.根据权利要求7-11之一所述的装置,其中,所述装置还包括:
接收模块,用于接收用于表征用户发出的语音的音频信息;
识别模块,用于对所述音频信息进行语音识别,得到第一文本。
13.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6任一所述的文本分类方法。
14.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-6任一所述的文本分类方法。
CN201910376447.1A 2019-05-07 2019-05-07 文本分类方法和装置 Active CN110209812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910376447.1A CN110209812B (zh) 2019-05-07 2019-05-07 文本分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910376447.1A CN110209812B (zh) 2019-05-07 2019-05-07 文本分类方法和装置

Publications (2)

Publication Number Publication Date
CN110209812A CN110209812A (zh) 2019-09-06
CN110209812B true CN110209812B (zh) 2022-04-22

Family

ID=67786918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910376447.1A Active CN110209812B (zh) 2019-05-07 2019-05-07 文本分类方法和装置

Country Status (1)

Country Link
CN (1) CN110209812B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2755606C2 (ru) * 2019-10-16 2021-09-17 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Способ и система классификации данных для выявления конфиденциальной информации в тексте
CN110738050B (zh) * 2019-10-16 2023-08-04 北京小米智能科技有限公司 基于分词和命名实体识别的文本重组方法及装置、介质
CN111104791B (zh) * 2019-11-14 2024-02-20 北京金堤科技有限公司 行业信息获取方法和装置、电子设备和介质
CN111177375B (zh) * 2019-12-16 2023-06-02 医渡云(北京)技术有限公司 一种电子文档分类方法及装置
CN111353310B (zh) * 2020-02-28 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN111539209B (zh) * 2020-04-15 2023-09-15 北京百度网讯科技有限公司 用于实体分类的方法和装置
CN115858772A (zh) * 2022-01-13 2023-03-28 北京中关村科金技术有限公司 对文本进行分类的方法、装置以及存储介质
CN115934937B (zh) * 2022-11-29 2024-01-23 北京百度网讯科技有限公司 文本分类模型的训练方法、文本分类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法
CN105787461A (zh) * 2016-03-15 2016-07-20 浙江大学 基于文本分类和条件随机场的中药文献不良反应实体识别方法
CN107844476A (zh) * 2017-10-19 2018-03-27 广州索答信息科技有限公司 一种增强的词性标注方法
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN109062901A (zh) * 2018-08-14 2018-12-21 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8085995B2 (en) * 2006-12-01 2011-12-27 Google Inc. Identifying images using face recognition
JP5526199B2 (ja) * 2012-08-22 2014-06-18 株式会社東芝 文書分類装置および文書分類処理プログラム
CN106294324B (zh) * 2016-08-11 2019-04-05 上海交通大学 一种基于自然语言句法分析树的机器学习情感分析器
CN106598941A (zh) * 2016-11-01 2017-04-26 四川用联信息技术有限公司 一种全局优化文本关键词质量的算法
JP2018112853A (ja) * 2017-01-11 2018-07-19 日本放送協会 話題分類装置およびそのプログラム
CN107608999A (zh) * 2017-07-17 2018-01-19 南京邮电大学 一种适用于自动问答系统的问句分类方法
CN108304468B (zh) * 2017-12-27 2021-12-07 中国银联股份有限公司 一种文本分类方法以及文本分类装置
CN108280064B (zh) * 2018-02-28 2020-09-11 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN109002473B (zh) * 2018-06-13 2022-02-11 天津大学 一种基于词向量与词性的情感分析方法
CN109299264A (zh) * 2018-10-12 2019-02-01 深圳市牛鼎丰科技有限公司 文本分类方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631948A (zh) * 2013-12-11 2014-03-12 北京京东尚科信息技术有限公司 命名实体的识别方法
CN105787461A (zh) * 2016-03-15 2016-07-20 浙江大学 基于文本分类和条件随机场的中药文献不良反应实体识别方法
CN107844476A (zh) * 2017-10-19 2018-03-27 广州索答信息科技有限公司 一种增强的词性标注方法
CN108763201A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于半监督学习的开放域中文文本命名实体识别方法
CN109062901A (zh) * 2018-08-14 2018-12-21 第四范式(北京)技术有限公司 神经网络训练方法和装置及命名实体识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词矢量相似度的短文本分类;马成龙 等;《山东大学学报(理学版)》;20141231;第49卷(第12期);18-22 *

Also Published As

Publication number Publication date
CN110209812A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110209812B (zh) 文本分类方法和装置
KR102204740B1 (ko) 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템
JP6667504B2 (ja) オーファン発話検出システム及び方法
US11308937B2 (en) Method and apparatus for identifying key phrase in audio, device and medium
CN109635103B (zh) 摘要生成方法和装置
CN105786793B (zh) 解析口语文本信息的语义的方法和装置
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
US10108698B2 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
CN111428010A (zh) 人机智能问答的方法和装置
CN111985249A (zh) 语义分析方法、装置、计算机可读存储介质及电子设备
US11604925B1 (en) Architecture for gazetteer-augmented named entity recognition
CN111639162A (zh) 信息交互方法和装置、电子设备和存储介质
CN112669842A (zh) 人机对话控制方法、装置、计算机设备及存储介质
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN107844587B (zh) 用于更新多媒体播放列表的方法和装置
US11170765B2 (en) Contextual multi-channel speech to text
CN111414471A (zh) 用于输出信息的方法和装置
CN112001167B (zh) 一种标点符号添加方法、系统、设备和介质
CN111555960A (zh) 信息生成的方法
CN112100364A (zh) 文本语义理解方法和模型训练方法、装置、设备和介质
CN111783433A (zh) 一种文本检索纠错方法和装置
CN112395414A (zh) 文本分类方法和分类模型的训练方法、装置、介质和设备
CN113434695A (zh) 金融事件抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant