CN111291189A - 一种文本处理方法、设备及计算机可读存储介质 - Google Patents

一种文本处理方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111291189A
CN111291189A CN202010161034.4A CN202010161034A CN111291189A CN 111291189 A CN111291189 A CN 111291189A CN 202010161034 A CN202010161034 A CN 202010161034A CN 111291189 A CN111291189 A CN 111291189A
Authority
CN
China
Prior art keywords
vector
sequence
word
dimension
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010161034.4A
Other languages
English (en)
Other versions
CN111291189B (zh
Inventor
任鑫涛
郭豪
蔡准
孙悦
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202010161034.4A priority Critical patent/CN111291189B/zh
Publication of CN111291189A publication Critical patent/CN111291189A/zh
Application granted granted Critical
Publication of CN111291189B publication Critical patent/CN111291189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本处理方法、设备及计算机可读存储介质,所述方法包括:对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,应用本方法,能够获得对指定文本在各个所需维度上进行合理、完整、准确的评价。

Description

一种文本处理方法、设备及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本处理方法、设备及计算机可读存储介质。
背景技术
随着互联网的高速发展,促进了文本数据的激增。这些海量的文本数据背后蕴含着极为丰富的信息,例如,在电商、智能旅游、网络约车等领域,用户在消费后会对商品质量、服务等多维度进行评价,各个维度包含了丰富的内容,通过对这些评论进行舆情监控有利于提高自身的服务质量,提供更为高效的监管与服务。舆情监控是本质是文本分类。在进行文本分类的时候,通常是基于多层网络结构的机器学习方法,这种方法一般首先对文本进行分词,然后以分词得到的词语为基本单位进行建模,获得的文本分类模型所能够利用的信息只有词语本身的词义信息,导致文本分类模型在最终舆情的识别结果上会有一定的损失,影响分类结果的准确性。
发明内容
本发明实施例提供了一种文本处理方法、设备及计算机可读存储介质,具有提高文本分类准确性的特点。
本发明一方面提供一种文本处理方法,所述方法包括:对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列,包括:根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
在一可实施方式中,所述通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:通过文本分类模型对所述转化向量序列进行映射,获得映射向量序列;其中,所述映射向量序列包括对应所述维度词向量的维度词映射向量;基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果。
在一可实施方式中,所述基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果,包括:根据所述维度词映射向量确定对应所述映射向量序列的第二注意力权重序列;根据所述第二注意力权重序列和所述映射向量序列确定表征向量;根据所述表征向量确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述文本分类模型为双向长短期记忆模型;相应的,所述通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:通过所述双向长短期记忆模型对所述转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,所述转化向量序列包括正向转化向量序列和反向转化向量序列;所述正向映射向量序列包括对应所述维度词向量的正向维度词映射向量;所述反向映射向量序列包括对应所述维度词向量的反向维度词映射向量;基于所述正向维度词映射向量对所述正向映射向量序列进行正向第二注意力机制转化,获得对应所述正向映射向量序列的正向表征向量序列;基于所述反向维度词映射向量对所述反向映射向量序列进行反向第二注意力机制转化,获得对应所述反向映射向量序列的反向表征向量序列;对所述正向表征向量和所述反向表征向量进行拼接,获得文本向量,所述文本向量用于确定所述指定文本的维度分类结果。
在一可实施方式中,所述文本分类模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
在一可实施方式中,在所述通过文本分类模型对所述转化向量进行分类的过程中,所述方法还包括:根据交叉熵确定所述文本分类模型的损失函数。
本发明另一方面提供一种文本处理设备,所述设备包括:分词模块,用于对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;转化模块,用于基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;分类模块,用于通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述转化模块,包括:权重确定子模块,用于根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;序列确定子模块,还用于根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
在一可实施方式中,所述分类模块,包括:映射子模块,用于通过文本分类模型对所述转化向量序列进行映射,获得映射向量序列;其中,所述映射向量序列包括对应所述维度词向量的维度词映射向量;转化子模块,用于基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果。
在一可实施方式中,所述转化子模块,包括:权重确定单元,用于根据所述维度词映射向量确定对应所述映射向量序列的第二注意力权重序列;序列确定单元,用于根据所述第二注意力权重序列和所述映射向量序列确定表征向量;确定单元,用于根据所述表征向量确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述文本分类模型为双向长短期记忆模型;相应的,所述分类模块,包括:所述映射子模块,还用于通过所述双向长短期记忆模型对所述转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,所述转化向量序列包括正向转化向量序列和反向转化向量序列;所述正向映射向量序列包括对应所述维度词向量的正向维度词映射向量;所述反向映射向量序列包括对应所述维度词向量的反向维度词映射向量;所述转化子模块,还用于基于所述正向维度词映射向量对所述正向映射向量序列进行正向第二注意力机制转化,获得对应所述正向映射向量序列的正向表征向量序列;所述转化子模块,还用于基于所述反向维度词映射向量对所述反向映射向量序列进行反向第二注意力机制转化,获得对应所述反向映射向量序列的反向表征向量序列;拼接子模块,用于对所述正向表征向量和所述反向表征向量进行拼接,获得文本向量,所述文本向量用于确定所述指定文本的维度分类结果。
在一可实施方式中,所述文本分类模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
在一可实施方式中,所述设备还包括:确定模块,用于根据交叉熵确定所述文本分类模型的损失函数。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的文本分类方法。
本发明实施例提供的文本处理方法、设备及计算机可读存储介质能够对指定文本的文本数据进行各个所需维度上的分类和分析,从而在无需人工阅读的情况下,能够获得对指定文本在各个所需维度上进行合理、完整、准确的评价。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种文本处理方法的实现流程示意图;
图2为本发明实施例一种文本处理方法第一注意力机制转化的实现流程示意图;
图3为本发明实施例一种文本处理方法模型转化的实现流程示意图;
图4为本发明实施例一种文本处理方法第二注意力机制转化的实现流程示意图;
图5为本发明另一实施例一种文本处理方法模型转化的实现流程示意图;
图6为本发明另一实施例一种LSTM网络的内部结构图;
图7为本发明另一实施例一种文本处理方法实施场景示意图;
图8为本发明实施例一种文本处理设备的实现模块示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种文本处理方法的实现流程示意图。
参见图1,本发明实施例一方面提供一种文本处理方法,方法包括:步骤101,对指定文本进行分词处理,得到词向量序列;其中,词向量序列包含维度词向量;步骤102,基于维度词向量对词向量序列进行第一注意力机制转化,获得转化向量序列;步骤103,通过文本分类模型对转化向量序列进行分类,确定对应指定文本的维度分类结果。
本发明实施例提供的文本处理方法主要应用于具有数据处理功能的设备,通过本方法,设备能够对指定文本的文本数据进行各个所需维度上的分类和分析,从而在无需人工阅读的情况下,能够获得对指定文本在各个所需维度上进行合理、完整、准确的评价。例如:应用本方法根据餐厅的用户评论分析确定用户在各个维度对餐厅的评价,包括但不限于:服务维度、环境维度、口味维度等。
步骤101中,指定文本包括但不限于来自话题讨论所获得的文本、信息分享所获得的文本、评论所获得的文本、社交平台所获得的文本等任意来源的文本信息。指定文本也可以来自电商平台、智能旅游、网络约车、信息通讯等不同领域。本方法首先对指定文本进行分词处理,将指定文本转化成为词向量序列,例如,当指定文本为“这个餐厅味道非常好,但是服务特别差”。通过分词获得的词序列为“‘这个’,‘餐厅’,‘味道’,‘非常’,‘好’,‘,’,‘但是’,‘服务’,‘特别’,‘差’”。该词序列通过词到向量可以映射获得词序向量序列W={W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10},W∈Rm×n,其中,m为词向量的长度,n为指定文本的输入长度。需要说明的是,本方法在进行文本分类前,预设有维度词,维度词选为用于进行维度分类的词语,如上述例子中的“味道”和“服务”。通过在指定文本中查找,可以确定指定文本中是否具有维度词,并通过词向量序列获得对应维度词的维度词向量。进一步需要说明的是,当指定文本中含多个维度词时,每次分类和分析分别针对其中一个维度词进行评价,例如在上述实施例中,首先通过本方法分类和分析指定文本中“味道”的评价极性,再通过本方法分类和分析指定文本中“服务”的评价极性。
本方法还包括,基于维度词向量对词向量序列进行第一注意力机制转化,获得转化向量序列。维度词向量可以从设备的预设数据库获得,也可以通过指定文本分词转化获得。第一注意力机制用于加强对维度词向量的关注,从而获得侧重于维度词的转化向量序列。
本方法还包括,通过文本分类模型对转化向量序列进行分类,确定对应指定文本的维度分类结果。本方法文本分类模型选为用于建模上下文信息的文本分类模型,如长短期记忆(LSTM)模型、双向长短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)模型,BiLSTM模型可用于建模上下文信息。文本分类模型通过维度词向量信息和上下文信息关联信息,能够生成具有维度词相关性的向量,基于该向量,能够确定对应指定文本的维度分类结果,使指定文本的维度分类和分析结果更加准确。进一步需要说明的是,本方法的第一注意力机制每次针对于其中一个维度词,从而能够有效地针对指定文本中不同维度词分别进行训练与分类,针对不同的维度词生成不同的注意力机制的转换向量,进而获得不同维度的维度分类结果,避免维度的遗漏和偏差。本方法在进行文本处理的任务中,例如进行舆情监控类似的文本处理任务中,基于第一注意力机制使维度分类结果偏向于维度词信息,基于文本分类模型训练与分类,使维度分类结果能够同时利用维度词信息与上下文语义信息,从而能够提取出针对维度词语本身更全面、更准确的信息,减少维度信息分析的遗漏与偏差。
图2为本发明实施例一种文本处理方法第一注意力机制转化的实现流程示意图。
参见图2,在本发明实施例中,步骤102的操作包括:步骤1021,根据维度词向量确定对应词向量序列的第一注意力权重序列;步骤1022,根据第一注意力权重序列和词向量序列确定转化向量序列。
在进行第一注意力机制转化过程中,本方法首先根据维度词向量确定对应词向量序列的第一注意力权重序列。在一种情况中,词向量序列为:W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10,第一注意力权重的计算公式为:
Figure BDA0002405799270000081
经过第一注意力权重计算公式获得对应词向量序列的第一注意力权重序列为:β1,β2,βa,β4,β5,β6,β7,β8,β9,β10。然后,根据第一注意力权重序列和词向量序列确定转化向量序列。在一种情况下,按照βiWi使第一注意力权重序列对词向量序列进行加权,获得对应的转化向量序列。其中,Wa用于表示该次评价使用的维度词对应的维度词向量;Wj用于表示该次评价所对应的词向量序列。βi用于表示对应Wi的第一注意力权重;Wi用于表示指定文本中的第i个词向量。
图3为本发明实施例一种文本处理方法文本分类模型转化的实现流程示意图。
参见图3,在本发明实施例中,步骤103包括:步骤1031,通过文本分类模型对转化向量序列进行映射,获得映射向量序列;其中,映射向量序列包括对应维度词向量的维度词映射向量;步骤1032,基于维度词映射向量对映射向量序列进行第二注意力机制转化,获得对应指定文本的维度分类结果。
本方法通过文本分类模型对转化向量序列进行映射,获得用于表征上下文信息的映射向量序列;根据维度词向量在指定文本中的位置,可以确定映射向量序列中对应维度词向量的维度词映射向量。相较于维度词向量,由于文本分类模型映射所确定的映射向量利用了上下文信息,由此获得的维度词映射向量同时利用了维度词与上下文语义信息。基于维度词映射向量对映射向量序列进行第二注意力机制转化,能够利用维度词的词向量信息与上下文信息关联信息,使得与维度词语义相关性更强的信息被保留下来,从而获得更侧重上下文信息和维度针对性的维度分类结果。
图4为本发明实施例一种文本处理方法第二注意力机制转化的实现流程示意图。
参见图4,在本发明实施例中,步骤1032的操作包括:步骤10321,根据维度词映射向量确定对应映射向量序列的第二注意力权重序列;步骤10322,根据第二注意力权重序列和映射向量序列确定表征向量;步骤10323,根据表征向量确定对应指定文本的维度分类结果。
同理第一注意力机制,在进行第二注意力机制转化过程中,假设在一种实施情况下,通过具有建模上下文信息的文本分类模型映射,获得的映射向量序列为H={H1,H2,H3,H4,H5,H6,H7,H8,H9,H10},H∈Rm×n,其中,m为映射向量的长度,n为指定文本输入长度。
映射向量序列为H={H1,H2,H3,H4,H5,H6,H7,H8,H9,H10},通过第二注意力机制得到第二注意力权重序列。第二注意力机制的计算公式为
Figure BDA0002405799270000091
Figure BDA0002405799270000092
其中,H代表经过文本分类模型输出的映射向量序列,Ha表示维度词Wa经过文本分类模型映射的维度词映射向量,Hi表示指定文本的第i个词通过文本分类模型映射的映射向量。
在得到映射向量序列的第二注意力权重序列之后,通过第二注意力权重对其对应的映射向量进行加权,得到
Figure BDA0002405799270000093
即得到指定文本的表征向量,用于进一步处理以形成指定文本的完整语义表征。
图5为本发明另一实施例一种文本处理方法模型转化的实现流程示意图。
参见图5,在本发明实施例中,文本分类模型为双向长短期记忆模型;相应的,步骤103包括:步骤1033,通过双向长短期记忆模型对转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,转化向量序列包括正向转化向量序列和反向转化向量序列;正向映射向量序列包括对应维度词向量的正向维度词映射向量;反向映射向量序列包括对应维度词向量的反向维度词映射向量;步骤1034,基于正向维度词映射向量对正向映射向量序列进行正向第二注意力机制转化,获得对应正向映射向量序列的正向表征向量序列;步骤1035,基于反向维度词映射向量对反向映射向量序列进行反向第二注意力机制转化,获得对应反向映射向量序列的反向表征向量序列;步骤1036,对正向表征向量和反向表征向量进行拼接,获得文本向量,文本向量用于确定指定文本的维度分类结果。需要说明的是,步骤1031、步骤1032和步骤1033-步骤1036之间没有直接的先后联系,两者可以属于不同实施方式。
本方法文本分类模型选择为双向长短期记忆模型,通过BiLSTM模型可以更好地捕捉双向的语义依赖,可以理解的是,当使用BiLSTM模型进行训练和分类时,在获取指定文本的正向词向量序列的同时,还需要获得指定文本的反向词向量序列,其他序列同理。
图6为本发明另一实施例一种LSTM网络的内部结构图。
参见图6,在一种实施情况下,BiLSTM模型的LSTM网络的内部结构一共包含了3种门结构用来控制信息的传输和变化,分别是:输入门,输出门和忘记门。输入门用来控制输入信号所占据的比例,输出门用来控制输出信号所占的比例,忘记门用来控制过去信息被遗忘的比例。它们协同工作,共同控制了LSTM内部的运作方式。每一时刻其接收一个信号输入,同时输出一个信号,并改变其内部的参数状态,这是一种非常适合处理序列信息特征的文本分类模型。it表示输入门,ft表示忘记门,ot表示输出门,gt为细胞状态的候选值,st为更新后的t时刻的细胞状态,ht为t时刻隐藏状态的值,Wi、Wf、Wo、Wr、bi、bf、bo、br为超参数,随着模型进行训练。
其具体公式如下所示:
it=σ(Wi·[ht-1;xt]+bi) (1)
ft=σ(Wf·[ht-1;xt]+bf) (2)
ot=σ(Wo·[ht-1;xt]+bo) (3)
gt=tanh(Wr·[ht-1;xt]+br) (4)
st=it⊙gt+ft⊙st-1 (5)
ht=ot⊙tanh(st) (6)
图7为本发明另一实施例一种文本处理方法实施场景示意图。
参见图7,在一种实施情况下当指定文本为“这个餐厅味道非常好,但是服务特别差”时,应用该BiLSTM模型进行文本分类时,首先,通过分词工具,例如:分词文本分类模型对指定文本进行分词并通过词到向量的映射,获得词向量序列W={W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10},W∈Rm×n,其中,m为词向量的长度,n为文本输入长度,Wa为维度词向量。
当采用BiLSTM模型时,一方面,词向量序列按照正向词向量序列排列,即:W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10,基于该正向词向量序列,通过正向第一注意力权重的计算公式
Figure BDA0002405799270000111
进行计算,得到正向第一注意力权重序列为:β1,β2,βa,β4,β5,β6,β7,β8,β9,β10,根据βiWi计算正向转化向量序列,将正向转化向量序列输入到BiLSTM模型的正向的LSTM中进行向量的映射,获得的正向映射向量序列为:H={H1,H2,H3,H4,H5,H6,H7,H8,H9,H10},H∈Rm×n,m为映射向量的长度,n为指定文本输入长度。
另一方面,词向量序列按照反向词向量序列排列,获得反向词向量序列为:W10,W9,W8,W7WW6,W5,W4,Wa,W2,W1。通过反向第一注意力权重的计算公式
Figure BDA0002405799270000121
进行计算,获得的反向第一注意力权重为β′10,β′9,β′8,β′7,β′6,β′5,β′4,β′a,β′2,β′1,根据β′iWi计算反向转化向量序列,将反向转化向量序列输入到BiLSTM模型的反向LSTM中进行向量映射,获得反向映射向量序列为:H′={H′10,H′9,H′8,H′7,H′6,H′,H′4,H′a,H′,H′1},H′∈Rm×n
接下来正向映射向量序列进行正向第二注意力机制处理,通过正向第二注意力权重序列的计算公式
Figure BDA0002405799270000122
进行计算,得到正向第二注意力权重序列为α1,α2,αa,α4,α5,α6,α7,α8,α9,α10。其中,H代表经过LSTM输出的正向映射向量序列,Ha表示维度词向量Wa经过BiLSTM模型输出的维度词映射向量,Hi表示指定文本的第i个词通过BiLSTM模型输出的映射向量。
另一方面,反向映射向量序列通过反向第二注意力权重序列的计算公式
Figure BDA0002405799270000123
计算反向第二注意力权重序列,得到反向第二注意力权重序列为α′10,α′9,α′8,α′7,α′6,α′5,α′4,α′3,α′2,α′1,其中,H′代表经过LSTM输出的反向映射向量,H′a表示维度词向量经过LSTM输出的维度词映射向量,H′i表示指定文本的第i个词经过LSTM输出的映射向量。
在得到正向映射向量序列的正向第二注意力权重之后,通过正向第二注意力权重对正向映射向量序列进行加权,得到
Figure BDA0002405799270000124
得到指定文本输入正向LSTM的正向输出向量,最后将正向输出向量和正向维度词的词向量Ha通过拼接模块拼接,得到正向表征向量,形成指定文本的完整语义表征T,,拼接模块的拼接方式为Ttotal=M1×Htotal+M2×Ha,其中M1∈Rm×m,M2∈Rm×m为参数,m为词向量序列的长度。
同理,在得到反向映射向量序列的反向第二注意力权重之后,反向第二注意力权重对发向映射向量序列进行加权,得到
Figure BDA0002405799270000131
即得到指定文本输入反向LSTM的反向输出向量,最后将反向输出向量和反向维度词的词向量H′a通过拼接模块拼接,得到反向表征向量,形成指定文本的完整语义表征T,拼接模块的拼接方式为T′total=M′1×M′total+M′2×H′a,其中M′1∈Rm×m,M′2∈Rm×m为参数,m为词向量的长度。
在得到对应指定文本的正向表征向量Ttotal和反向表征向量T′total后,对正向表征向量和反向表征向量进行拼接,拼接方式为T=a*Ttotal+b*T′total,其中a∈R1×1,b∈R1×1,获得文本向量。将文本向量通过分类函数进行分类,如输入到softmax函数
Figure BDA0002405799270000132
中,得到最终文本分类模型的概率输出,即为指定文本的维度分类结果。
本方法专利基于BiLSTM模型的网络结构,同时利用了维度词信息及维度词与上下文语义信息,提出有效的基于维度信息的注意力权重生成方式,使得文本分类模型在对于文本信息表征方面能够利用到更加全面、完整的词义。本方法尤其适用于舆情监控,舆情控制是依赖对于词义的准确全面的理解,故该文本分类模型对于基于维度词的舆情监控提出准确率是非常有帮助的。
在本发明实施例中,文本分类模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。例如,通过词到向量转化获得的词向量序列及其参数作为文本分类模型参数的一部分随着文本分类模型一起训练;由文本分类模型映射获得的映射向量序列及其参数作为文本分类模型参数的一部分随着文本分类模型一起训练。
在本发明实施例中,在通过文本分类模型对转化向量进行分类的过程中,方法还包括:根据交叉熵确定文本分类模型的损失函数。在模型训练中,通过损失函数用来反向梯度传播更新模型参数,使损失达到最小。
采用交叉熵作为损失函数的公式为:
Figure BDA0002405799270000141
图8为本发明实施例一种文本处理设备的实现模块示意图。
参见图8,本发明实施例另一方面提供一种文本处理设备,设备包括:分词模块801,用于对指定文本进行分词处理,得到词向量序列;其中,词向量序列包含维度词向量;转化模块802,用于基于维度词向量对词向量序列进行第一注意力机制转化,获得转化向量序列;分类模块803,用于通过文本分类模型对转化向量序列进行分类,确定对应指定文本的维度分类结果。
在本发明实施例中,转化模块802,包括:权重确定子模块8021,用于根据维度词向量确定对应词向量序列的第一注意力权重序列;序列确定子模块8022,还用于根据第一注意力权重序列和词向量序列确定转化向量序列。
在本发明实施例中,分类模块803,包括:映射子模块8031,用于通过文本分类模型对转化向量序列进行映射,获得映射向量序列;其中,映射向量序列包括对应维度词向量的维度词映射向量;转化子模块8032,用于基于维度词映射向量对映射向量序列进行第二注意力机制转化,获得对应指定文本的维度分类结果。
在本发明实施例中,转化子模块8032,包括:权重确定单元80321,用于根据维度词映射向量确定对应映射向量序列的第二注意力权重序列;序列确定单元80322,用于根据第二注意力权重序列和映射向量序列确定表征向量;维度确定单元80323,用于根据表征向量确定对应指定文本的维度分类结果。
在本发明实施例中,文本分类模型为双向长短期记忆模型;相应的,分类模块803,包括:映射子模块8031,还用于通过双向长短期记忆模型对转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,转化向量序列包括正向转化向量序列和反向转化向量序列;正向映射向量序列包括对应维度词向量的正向维度词映射向量;反向映射向量序列包括对应维度词向量的反向维度词映射向量;转化子模块8032,还用于基于正向维度词映射向量对正向映射向量序列进行正向第二注意力机制转化,获得对应正向映射向量序列的正向表征向量序列;转化子模块8032,还用于基于反向维度词映射向量对反向映射向量序列进行反向第二注意力机制转化,获得对应反向映射向量序列的反向表征向量序列;拼接子模块8033,用于对正向表征向量和反向表征向量进行拼接,获得文本向量,文本向量用于确定指定文本的维度分类结果。
在本发明实施例中,文本分类模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
在本发明实施例中,设备还包括:确定模块804,用于根据交叉熵确定文本分类模型的损失函数。
本发明实施例另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的文本分类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;
基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;
通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列,包括:
根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;
根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
3.根据权利要求1所述的方法,其特征在于,所述通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:
通过文本分类模型对所述转化向量序列进行映射,获得映射向量序列;其中,所述映射向量序列包括对应所述维度词向量的维度词映射向量;
基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果。
4.根据权利要求3所述的方法,其特征在于,所述基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果,包括:
根据所述维度词映射向量确定对应所述映射向量序列的第二注意力权重序列;
根据所述第二注意力权重序列和所述映射向量序列确定表征向量;
根据所述表征向量确定对应所述指定文本的维度分类结果。
5.根据权利要求3所述的方法,其特征在于,所述文本分类模型为双向长短期记忆模型;
相应的,所述通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:
通过所述双向长短期记忆模型对所述转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,所述转化向量序列包括正向转化向量序列和反向转化向量序列;所述正向映射向量序列包括对应所述维度词向量的正向维度词映射向量;所述反向映射向量序列包括对应所述维度词向量的反向维度词映射向量;
基于所述正向维度词映射向量对所述正向映射向量序列进行正向第二注意力机制转化,获得对应所述正向映射向量序列的正向表征向量序列;
基于所述反向维度词映射向量对所述反向映射向量序列进行反向第二注意力机制转化,获得对应所述反向映射向量序列的反向表征向量序列;
对所述正向表征向量和所述反向表征向量进行拼接,获得文本向量,所述文本向量用于确定所述指定文本的维度分类结果。
6.根据权利要求3所述的方法,其特征在于,所述文本分类模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
7.根据权利要求3所述的方法,其特征在于,在所述通过文本分类模型对所述转化向量进行分类的过程中,所述方法还包括:
根据交叉熵确定所述文本分类模型的损失函数。
8.一种文本处理设备,其特征在于,所述设备包括:
分词模块,用于对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;
转化模块,用于基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;
分类模块,用于通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果。
9.根据权利要求8所述的设备,其特征在于,所述转化模块,包括:
权重确定子模块,用于根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;
序列确定子模块,还用于根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-7任一项所述的文本处理方法。
CN202010161034.4A 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质 Active CN111291189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010161034.4A CN111291189B (zh) 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010161034.4A CN111291189B (zh) 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111291189A true CN111291189A (zh) 2020-06-16
CN111291189B CN111291189B (zh) 2020-12-04

Family

ID=71017846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010161034.4A Active CN111291189B (zh) 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111291189B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法
WO2023246264A1 (zh) * 2022-06-21 2023-12-28 腾讯科技(深圳)有限公司 基于注意力模块的信息识别方法和相关装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN109857860A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110083833A (zh) * 2019-04-18 2019-08-02 东华大学 中文字词向量和方面词向量联合嵌入情感分析方法
US10388274B1 (en) * 2016-03-31 2019-08-20 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN110263162A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置
CN110334209A (zh) * 2019-05-23 2019-10-15 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10388274B1 (en) * 2016-03-31 2019-08-20 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN109857860A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110083833A (zh) * 2019-04-18 2019-08-02 东华大学 中文字词向量和方面词向量联合嵌入情感分析方法
CN110334209A (zh) * 2019-05-23 2019-10-15 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN110263162A (zh) * 2019-06-05 2019-09-20 阿里巴巴集团控股有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAI SHUANG ET AL.: "AELA-DLSTMs:Attention-Enabled and Location-Aware Double LSTMs for aspect-level sentiment classfication", 《NEUROCOMPUTING》 *
KAI SHUANG ET AL.: "Effective Strategies for Combining Attention Mechanism with LSTM for Aspect-Level Sentiment Classification", 《PROCEEDING OF SAI INTELLIGENT SYSTEMS CONFERENCE,SPRINGER》 *
任鑫涛: "多维度用户评论情感分析系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法
WO2023246264A1 (zh) * 2022-06-21 2023-12-28 腾讯科技(深圳)有限公司 基于注意力模块的信息识别方法和相关装置

Also Published As

Publication number Publication date
CN111291189B (zh) 2020-12-04

Similar Documents

Publication Publication Date Title
CN110827129B (zh) 一种商品推荐方法及装置
CN111881262B (zh) 基于多通道神经网络的文本情感分析方法
CN110580341A (zh) 一种基于半监督学习模型的虚假评论检测方法及系统
CN114743020A (zh) 一种结合标签语义嵌入和注意力融合的食物识别方法
CN111639247A (zh) 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质
Phan et al. Consensus-based sequence training for video captioning
CN111291189B (zh) 一种文本处理方法、设备及计算机可读存储介质
CN112307336B (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN111985612A (zh) 一种提高视频文本描述准确性的编码器网络模型设计方法
CN111598153A (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN113987161A (zh) 一种文本排序方法及装置
CN117763126A (zh) 知识检索方法、设备、存储介质及装置
CN116450848B (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN111382232A (zh) 问答信息处理方法、装置及计算机设备
Liu et al. An anomaly detection method based on double encoder–decoder generative adversarial networks
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
CN114757097A (zh) 一种线路故障诊断方法及装置
CN116778210A (zh) 教学影像评价系统以及教学影像评价方法
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
CN115497482B (zh) 一种语音对话方法及相关装置
CN117040942B (zh) 一种基于深度学习的网络安全测试评估方法及系统
CN114117251B (zh) 一种智慧文博下融合多因素的矩阵分解个性化推荐方法
CN118014703A (zh) 基于数字化平台的可视化智能决策系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant