CN111291189B - 一种文本处理方法、设备及计算机可读存储介质 - Google Patents

一种文本处理方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111291189B
CN111291189B CN202010161034.4A CN202010161034A CN111291189B CN 111291189 B CN111291189 B CN 111291189B CN 202010161034 A CN202010161034 A CN 202010161034A CN 111291189 B CN111291189 B CN 111291189B
Authority
CN
China
Prior art keywords
vector
sequence
word
dimension
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010161034.4A
Other languages
English (en)
Other versions
CN111291189A (zh
Inventor
任鑫涛
郭豪
蔡准
孙悦
郭晓鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Trusfort Technology Co ltd
Original Assignee
Beijing Trusfort Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Trusfort Technology Co ltd filed Critical Beijing Trusfort Technology Co ltd
Priority to CN202010161034.4A priority Critical patent/CN111291189B/zh
Publication of CN111291189A publication Critical patent/CN111291189A/zh
Application granted granted Critical
Publication of CN111291189B publication Critical patent/CN111291189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本处理方法、设备及计算机可读存储介质,所述方法包括:对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,应用本方法,能够获得对指定文本在各个所需维度上进行合理、完整、准确的评价。

Description

一种文本处理方法、设备及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文本处理方法、设备及计算机可读存储介质。
背景技术
随着互联网的高速发展,促进了文本数据的激增。这些海量的文本数据背后蕴含着极为丰富的信息,例如,在电商、智能旅游、网络约车等领域,用户在消费后会对商品质量、服务等多维度进行评价,各个维度包含了丰富的情感信息,通过对这些评论进行舆情监控有利于高自身的服务质量,供更为高效的监管与服务。舆情监控是本质是文本分类。在进行文本分类的时候,通常是基于多层网络结构的机器学习方法,这种方法一般首先对文本进行分词,以词语为基本单位进行建模,模型所能够利用的信息只有词语本身的词义信息,导致模型在最终舆论的识别结果上会有一定的损失,影响分类结果的准确性。
发明内容
本发明实施例提供了一种文本处理方法、设备及计算机可读存储介质,具有提高文本分类准确性的特点。
本发明一方面提供一种文本处理方法,所述方法包括:对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;通过模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列,包括:根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
在一可实施方式中,所述通过模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:通过模型对所述转化向量序列进行映射,获得映射向量序列;其中,所述映射向量序列包括对应所述维度词向量的维度词映射向量;基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果。
在一可实施方式中,所述基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果,包括:根据所述维度词映射向量确定对应所述映射向量序列的第二注意力权重序列;根据所述第二注意力权重序列和所述映射向量序列确定表征向量;根据所述表征向量确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述模型为双向长短期记忆模型;相应的,所述通过模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:通过所述双向长短期记忆模型对所述转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,所述转化向量序列包括正向转化向量序列和反向转化向量序列;所述正向映射向量序列包括对应所述维度词向量的正向维度词映射向量;所述反向映射向量序列包括对应所述维度词向量的反向维度词映射向量;基于所述正向维度词映射向量对所述正向映射向量序列进行正向第二注意力机制转化,获得对应所述正向映射向量序列的正向表征向量序列;基于所述反向维度词映射向量对所述反向映射向量序列进行反向第二注意力机制转化,获得对应所述反向映射向量序列的反向表征向量序列;对所述正向表征向量和所述反向表征向量进行拼接,获得文本向量,所述文本向量用于确定所述指定文本的维度分类结果。
在一可实施方式中,所述模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
在一可实施方式中,在所述通过模型对所述转化向量进行分类的过程中,所述方法还包括:根据交叉熵确定所述模型的损失函数。
本发明另一方面提供一种文本处理设备,所述设备包括:分词模块,用于对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;转化模块,用于基于所述维度词向量对所述词向量序列进行第一注意力机制转化,获得转化向量序列;分类模块,用于通过模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述转化模块,包括:权重确定子模块,用于根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;序列确定子模块,还用于根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
在一可实施方式中,所述分类模块,包括:映射子模块,用于通过模型对所述转化向量序列进行映射,获得映射向量序列;其中,所述映射向量序列包括对应所述维度词向量的维度词映射向量;转化子模块,用于基于所述维度词映射向量对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果。
在一可实施方式中,所述转化子模块,包括:权重确定单元,用于根据所述维度词映射向量确定对应所述映射向量序列的第二注意力权重序列;序列确定单元,用于根据所述第二注意力权重序列和所述映射向量序列确定表征向量;确定单元,用于根据所述表征向量确定对应所述指定文本的维度分类结果。
在一可实施方式中,所述模型为双向长短期记忆模型;相应的,所述分类模块,包括:所述映射子模块,还用于通过所述双向长短期记忆模型对所述转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,所述转化向量序列包括正向转化向量序列和反向转化向量序列;所述正向映射向量序列包括对应所述维度词向量的正向维度词映射向量;所述反向映射向量序列包括对应所述维度词向量的反向维度词映射向量;所述转化子模块,还用于基于所述正向维度词映射向量对所述正向映射向量序列进行正向第二注意力机制转化,获得对应所述正向映射向量序列的正向表征向量序列;所述转化子模块,还用于基于所述反向维度词映射向量对所述反向映射向量序列进行反向第二注意力机制转化,获得对应所述反向映射向量序列的反向表征向量序列;拼接子模块,用于对所述正向表征向量和所述反向表征向量进行拼接,获得文本向量,所述文本向量用于确定所述指定文本的维度分类结果。
在一可实施方式中,所述模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
在一可实施方式中,所述设备还包括:确定模块,用于根据交叉熵确定所述模型的损失函数。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的文本分类方法。
本发明实施例提供的文本处理方法、设备及计算机可读存储介质能够对指定文本的文本数据进行各个所需维度上的分类和分析,从而在无需人工阅读的情况下,能够获得对指定文本在各个所需维度上进行合理、完整、准确的评价。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种文本处理方法的实现流程示意图;
图2为本发明实施例一种文本处理方法第一注意力机制转化的实现流程示意图;
图3为本发明实施例一种文本处理方法模型转化的实现流程示意图;
图4为本发明实施例一种文本处理方法第二注意力机制转化的实现流程示意图;
图5为本发明另一实施例一种文本处理方法模型转化的实现流程示意图;
图6为本发明另一实施例一种LSTM网络的内部结构图;
图7为本发明另一实施例一种文本处理方法实施场景示意图;
图8为本发明实施例一种文本处理设备的实现模块示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种文本处理方法的实现流程示意图。
参见图1,本发明实施例一方面提供一种文本处理方法,方法包括:步骤101,对指定文本进行分词处理,得到词向量序列;其中,词向量序列包含维度词向量;步骤102,基于维度词向量对词向量序列进行第一注意力机制转化,获得转化向量序列;步骤103,通过模型对转化向量序列进行分类,确定对应指定文本的维度分类结果。
本发明实施例提供的文本处理方法主要应用于具有数据处理功能的设备,通过本方法,设备能够对指定文本的文本数据进行各个所需维度上的分类和分析,从而在无需人工阅读的情况下,能够获得对只当文本在各个所需维度上进行合理、完整、准确的评价。例如:应用本方法根据餐厅的用户评论分析确定用户在各个维度对餐厅的情绪,包括但不限于:服务维度、环境维度、口味维度等。
本方法包括,对指定文本进行分词处理,得到词向量序列;其中,词向量序列包含维度词向量。指定文本包括但不限于来自话题讨论所获得的文本、信息分享所获得的文本、评论所获得的文本、社交平台所获得的文本等任意来源的文本信息。指定文本也可以来自电商平台、智能旅游、网络约车、信息通讯等不同领域。本方法首先对指定文本进行分词处理,将指定文本转化成为词向量序列,例如,当指定文本为“这个餐厅味道非常好,但是服务特别差”。通过分词获得的词序列为“‘这个’,‘餐厅’,‘味道’,‘非常’,‘好’,‘,’,‘但是’,‘服务’,‘特别’,‘差”’。该词序列通过词到向量可以映射获得词序向量序列W={W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10},W∈Rm×n,其中,m为词向量的长度,n为指定文本的输入长度。需要说明的是,本方法在进行文本分类前,预设有维度词,维度词选为用于进行维度分类的词语,如上述例子中的“味道”和“服务”。通过在指定文本中查找,可以确定指定文本中是否具有维度词,并通过词向量序列获得对应维度词的维度词向量。进一步需要说明的是,当指定文本中喊多个维度词时,每次分类和分析分别针对其中一个维度词进行评价,例如在上述实施例中,首先通过本方法分类和分析指定文本中“味道”的情感极性,再通过本方法分类和分析指定文本中“服务”的情感极性。
本方法还包括,基于维度词向量对词向量序列进行第一注意力机制转化,获得转化向量序列。维度词向量可以从设备的预设数据库获得,也可以通过指定文本分词转化获得。第一注意力机制用于加强对维度词向量的关注,从而获得侧重于维度词的转化向量序列。
本方法还包括,通过模型对转化向量序列进行分类,确定对应指定文本的维度分类结果。本方法模型选为用于建模上下文信息的模型,如长短期记忆(LSTM)模型、双向长短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)模型,BiLSTM模型可用于建模上下文信息。模型通过维度词向量信息和上下文信息关联信息,能够生成具有维度词相关性的向量,基于该向量,能够确定对应指定文本的维度分类结果,使指定文本的维度分类和分析结果更加准确。进一步需要说明的是,本方法的第一注意力机制每次针对于其中一个维度词,从而能够有效地针对指定文本中不同维度词分别进行训练与分类,针对不同的维度词生成不同的注意力机制的转换向量,进而获得不同维度的维度分类结果,避免维度的遗漏和偏差。本方法在进行文本处理的任务中,例如进行舆情监控类似的文本处理任务中,基于第一注意力机制使维度分类结果偏向于维度词信息,基于模型训练与分类,使维度分类结果能够同时利用维度词信息与上下文语义信息,从而能够提取出针对维度词语本身更全面、更准确的信息,减少维度信息分析的遗漏与偏差。
图2为本发明实施例一种文本处理方法第一注意力机制转化的实现流程示意图。
参见图2,在本发明实施例中,步骤102,基于维度词向量对词向量序列进行第一注意力机制转化,获得转化向量序列,包括:步骤1021,根据维度词向量确定对应词向量序列的第一注意力权重序列;步骤1022,根据第一注意力权重序列和词向量序列确定转化向量序列。
在进行第一注意力机制转化过程中,本方法首先根据维度词向量确定对应词向量序列的第一注意力权重序列。在一种情况中,词向量序列为:W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10,第一注意力权重的计算公式为:
Figure GDA0002734603300000101
经过第一注意力权重计算公式获得对应词向量序列的第一注意力权重序列为:β1,β2,βa,β4,β5,β6,β7,β8,β9,β10。然后,根据第一注意力权重序列和词向量序列确定转化向量序列。在一种情况下,按照βiWi使第一注意力权重序列对词向量序列进行加权,获得对应的转化向量序列。其中,Wa用于表示该次评价使用的维度词对应的维度词向量;Wj用于表示该次评价所对应的词向量序列。βi用于表示对应Wi的第一注意力权重;Wi用于表示指定文本中第i个词向量。
图3为本发明实施例一种文本处理方法模型转化的实现流程示意图。
参见图3,在本发明实施例中,步骤103,通过模型对转化向量序列进行分类,确定对应指定文本的维度分类结果,包括:步骤1031,通过模型对转化向量序列进行映射,获得映射向量序列;其中,映射向量序列包括对应维度词向量的维度词映射向量;步骤1032,基于维度词映射向量对映射向量序列进行第二注意力机制转化,获得对应指定文本的维度分类结果。
本方法通过模型对转化向量序列进行映射,获得用于表征上下文信息的映射向量序列;根据维度词向量在指定文本中的位置,可以确定映射向量序列中对应维度词向量的维度词映射向量。相较于维度词向量,由于模型映射所确定的映射向量利用了上下文信息,由此获得的维度词映射向量同时利用了维度词与上下文语义信息。基于维度词映射向量对映射向量序列进行第二注意力机制转化,能够利用维度词的词向量信息与上下文信息关联信息,使得与维度词语义相关性更强的信息被保留下来。从而获得更侧重上下文信息和维度针对性的维度分类结果。
图4为本发明实施例一种文本处理方法第二注意力机制转化的实现流程示意图。
参见图4,在本发明实施例中,步骤1032,基于维度词映射向量对映射向量序列进行第二注意力机制转化,获得对应指定文本的维度分类结果,包括:步骤10321,根据维度词映射向量确定对应映射向量序列的第二注意力权重序列;步骤10322,根据第二注意力权重序列和映射向量序列确定表征向量;步骤10323,根据表征向量确定对应指定文本的维度分类结果。
同理第一注意力机制,在进行第二注意力机制转化过程中,假设在一种实施情况下,通过具有建模上下文信息的模型映射,获得的映射向量序列为H={H1,H2,Ha,H4,H5,H6,H7,H8,H9,H10},H∈Rm×n,其中,m为隐藏向量的长度,n为文本输入长度。
映射向量序列为H={H1,H2,Ha,H4,H5,H6,H7,H8,H9,H10}通过第二注意力机制得到第二注意力权重序列。第二注意力机制的计算公式为
Figure GDA0002734603300000121
其中,H代表经过模型输出的映射向量序列,Ha表示维度词Wa经过模型映射的维度词映射向量,Hi表示指定文本的第i个词通过模型映射的映射向量。
在得到映射向量序列的第二注意力权重序列之后,通过第二注意力权重对其对应的映射向量进行加权,得到
Figure GDA0002734603300000122
Figure GDA0002734603300000123
即得到指定文本的表征向量,用于进一步处理以形成指定文本的完整语义表征。
图5为本发明另一实施例一种文本处理方法模型转化的实现流程示意图。
参见图5,在本发明实施例中,模型为双向长短期记忆模型;相应的,步骤103,通过模型对转化向量序列进行分类,确定对应指定文本的维度分类结果,包括:步骤1033,通过双向长短期记忆模型对转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,转化向量序列包括正向转化向量序列和反向转化向量序列;正向映射向量序列包括对应维度词向量的正向维度词映射向量;反向映射向量序列包括对应维度词向量的反向维度词映射向量;步骤1034,基于正向维度词映射向量对正向映射向量序列进行正向第二注意力机制转化,获得对应正向映射向量序列的正向表征向量序列;步骤1035,基于反向维度词映射向量对反向映射向量序列进行反向第二注意力机制转化,获得对应反向映射向量序列的反向表征向量序列;步骤1036,对正向表征向量和反向表征向量进行拼接,获得文本向量,文本向量用于确定指定文本的维度分类结果。需要说明的是,步骤1031、步骤1032和步骤1033-步骤1036之间没有直接的先后联系,两者可以属于不同实施方式。
本方法模型选择为双向长短期记忆模型,通过BiLSTM模型可以更好地捕捉双向的语义依赖,可以理解的是,当使用BiLSTM模型进行训练和分类时,在获取指定文本的正向词向量序列的同时,还需要获得指定文本的反向词向量序列,其他序列同理。
图6为本发明另一实施例一种LSTM网络的内部结构图。
参见图6,在一种实施情况下,BiLSTM模型的LSTM网络的内部结构一共包含了3种门结构用来控制信息的传输和变化,分别是:输入门,输出门和忘记门。输入门用来控制输入信号所占据的比例,输出门用来控制输出信号所占的比例,忘记门用来控制过去信息被遗忘的比例。它们协同工作,共同控制了LSTM内部的运作方式。每一时刻其接受一个信号输入,同时输出一个信号,并改变其内部的参数状态,这是一种非常适合处理序列信息特征的模型。it表示输入门,ft表示忘记门,ot表示输出门,gt为细胞状态的候选值,st为更新后的t时刻的细胞状态,ht为t时刻隐藏状态的值,Wi、Wf、Wo、Wr、bi、bf、bo、br为超参数,随着模型进行训练。
其具体公式如下所示:
it=σ(Wi·[ht-1;xt]+bi) (1)
ft=σ(Wf·[ht-1;xt]+bf) (2)
ot=σ(Wo.[ht-1;xt]+bo) (3)
gt=tanh(Wr.[ht-1;xt]+br) (4)
st=it⊙gt+ft⊙st-1 (5)
ht=ot⊙tanh(st) (6)
图7为本发明另一实施例一种文本处理方法实施场景示意图。
参见图7,在一种实施情况下当指定文本为“这个餐厅味道非常好,但是服务特别差”时,应用该BiLSTM模型进行文本分类时,首先,通过分词工具,例如:分词模型对指定文本进行分词并通过词到向量的映射,获得词向量序列W={W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10},W∈Rm×n,其中,m为词向量的长度,n为文本输入长度,Wa为维度词向量。
当采用BiLSTM模型时,一方面,词向量序列按照正向词向量序列排列,即:W1,W2,Wa,W4,W5,W6,W7,W8,W9,W10,基于该正向词向量序列,通过正向第一注意力权重的计算公式
Figure GDA0002734603300000141
Figure GDA0002734603300000142
进行计算,得到正向第一注意力权重序列为:β1,β2,βa,β4,β5,β6,β7,β8,β9,β10,根据βiWi计算正向转化向量序列,将正向转化向量序列输入到BiLSTM模型的正向的LSTM中进行向量的映射,获得的正向映射向量序列为:H={H1,H2,Ha,H4,H5,H6,H7,H8,H9,H10},H∈Rm×n,m为隐藏向量的长度,n为文本输入长度。
另一方面,词向量序列按照反向词向量序列排列,获得反向词向量序列为:W10,W9,W8,W7,W6,W5,W4,Wa,W2,W1。通过反向第一注意力权重的计算公式
Figure GDA0002734603300000151
进行计算,获得的反向第一注意力权重为β′10,β′9,β′8,β′7,β′6,β′5,β′4,β′a,β′2,β′1,根据β′iWi计算反向转化向量序列,将反向转化向量序列输入到BiLSTM模型的反向LSTM中进行向量映射,获得反向映射向量序列为:H′={H′10,H′9,H′8,H′7,H′6,H′5,H′4,H′a,H′2,H′1},H′∈Rm×n
接下来正向映射向量序列进行正向第二注意力机制处理,通过正向第二注意力权重序列的计算公式
Figure GDA0002734603300000152
Figure GDA0002734603300000153
进行计算,得到正向第二注意力权重序列为α1,α2,αa,α4,α5,α6,α7,α8,α9,α10。其中,H代表经过LSTM输出的正向映射向量序列,Ha表示维度词向量Wa经过BiLSTM模型输出的维度词映射向量,Hi表示指定文本的第i个词通过BiLSTM模型输出的映射向量。
另一方面,反向映射向量序列通过反向第二注意力权重序列的计算公式
Figure GDA0002734603300000154
进行计算反向第二注意力权重序列,得到反向第二注意力权重序列为α′10,α′9,α′8,α′7,α′6,α′5,α′4,α′a,α′2,α′1,其中,H′代表经过LSTM输出的反向映射向量,H′a表示维度词向量经过LSTM输出的维度词映射向量,H′i表示指定文本的第i个词经过LSTM输出的映射向量。
在得到正向映射向量序列的正向第二注意力权重之后,通过正向第二注意力权重对正向映射向量序列进行加权,得到
Figure GDA0002734603300000161
,m为隐藏向量的长度,n为文本输入长度,得到指定文本输入正向LSTM的正向输出向量,最后将正向输出向量和正向维度词的词向量Ha通过拼接模块拼接,得到正向表征向量,形成指定文本的完整语义表征T,,拼接模块的拼接方式为Ttotal=M1×Htotal+M2×Ha,Ttotal∈Rc×1,其中M1∈Rc×m,M2∈Rc×m为参数,c为文本分类个数,m为词向量序列的长度。
同理,在得到反向映射向量序列的反向第二注意力权重之后,反向第二注意力权重对发向映射向量序列进行加权,得到
Figure GDA0002734603300000162
即得到指定文本输入反向LSTM的反向输出向量,最后将反向输出向量和反向维度词的词向量H′a通过拼接模块拼接,得到反向表征向量,形成指定文本的完整语义表征T,拼接模块的拼接方式为T′total=M′1×H′total+M′2×H′a,T′total∈Rc×1,其中M′1∈Rc×m,M′2∈Rc×m为参数,c为文本分类个数,m为词向量的长度。
在得到对应指定文本的正向表征向量Ttotal和反向表征向量T′total后,对正向表征向量和反向表征向量进行拼接,拼接方式为T=a*Ttotal+b*T′total,其中a∈R1×1,b∈R1×1,获得文本向量。将文本向量通过分类函数进行分类,如输入到softmax函数
Figure GDA0002734603300000171
中,其中n为向量的维度,i和j为向量的元素。得到最终模型的概率输出T={T1,T2,...,Tc},其中
Figure GDA0002734603300000172
即为指定文本的维度分类结果。
本方法专利基于BiLSTM模型的网络结构,同时利用了维度词信息及维度词与上下文语义信息,提出有效的基于维度信息的注意力权重生成方式,使得模型在对于文本信息表征方面能够利用到更加全面、完整的词义。本方法尤其适用于舆情监控,舆情控制是依赖对于词义的准确全面的理解,故该模型对于基于维度词的舆情监控提出准确率是非常有帮助的。
在本发明实施例中,模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。例如,通过词到向量转化获得的词向量序列及其参数作为模型参数的一部分随着模型一起训练;由模型映射获得的映射向量序列及其参数作为模型参数的一部分随着模型一起训练。
在本发明实施例中,在通过模型对转化向量进行分类的过程中,方法还包括:根据交叉熵确定模型的损失函数。
采用交叉熵作为损失函数的公式为
Figure GDA0002734603300000173
其中c为文本分类个数,yi为文本分类为i的实际标签值,Ti为文本分类为i的预测结果值。
图8为本发明实施例一种文本处理设备的实现模块示意图。
参见图8,本发明实施例另一方面提供一种文本处理设备,设备包括:分词模块801,用于对指定文本进行分词处理,得到词向量序列;其中,词向量序列包含维度词向量;转化模块802,用于基于维度词向量对词向量序列进行第一注意力机制转化,获得转化向量序列;分类模块803,用于通过模型对转化向量序列进行分类,确定对应指定文本的维度分类结果。
在本发明实施例中,转化模块802,包括:权重确定子模块8021,用于根据维度词向量确定对应词向量序列的第一注意力权重序列;序列确定子模块8022,还用于根据第一注意力权重序列和词向量序列确定转化向量序列。
在本发明实施例中,分类模块803,包括:映射子模块8031,用于通过模型对转化向量序列进行映射,获得映射向量序列;其中,映射向量序列包括对应维度词向量的维度词映射向量;转化子模块8032,用于基于维度词映射向量对映射向量序列进行第二注意力机制转化,获得对应指定文本的维度分类结果。
在本发明实施例中,转化子模块8032,包括:权重确定单元80321,用于根据维度词映射向量确定对应映射向量序列的第二注意力权重序列;序列确定单元80322,用于根据第二注意力权重序列和映射向量序列确定表征向量;维度确定单元80323,用于根据表征向量确定对应指定文本的维度分类结果。
在本发明实施例中,模型为双向长短期记忆模型;相应的,分类模块803,包括:映射子模块8031,还用于通过双向长短期记忆模型对转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;其中,转化向量序列包括正向转化向量序列和反向转化向量序列;正向映射向量序列包括对应维度词向量的正向维度词映射向量;反向映射向量序列包括对应维度词向量的反向维度词映射向量;转化子模块8032,还用于基于正向维度词映射向量对正向映射向量序列进行正向第二注意力机制转化,获得对应正向映射向量序列的正向表征向量序列;转化子模块8032,还用于基于反向维度词映射向量对反向映射向量序列进行反向第二注意力机制转化,获得对应反向映射向量序列的反向表征向量序列;拼接子模块8033,用于对正向表征向量和反向表征向量进行拼接,获得文本向量,文本向量用于确定指定文本的维度分类结果。
在本发明实施例中,模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
在本发明实施例中,设备还包括:确定模块804,用于根据交叉熵确定模型的损失函数。
本发明实施例另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的文本分类方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种文本处理方法,其特征在于,所述方法包括:
对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;
基于所述维度词向量和第一注意力权重序列对所述词向量序列进行第一注意力机制转化,获得转化向量序列;其中,所述第一注意力权重序列包括正向第一注意力权重序列和反向第一注意力权重序列;
所述正向第一注意力权重序列的计算公式为:
Figure FDA0002734603290000011
Figure FDA0002734603290000012
所述反向第一注意力权重的计算公式为:
Figure FDA0002734603290000013
Figure FDA0002734603290000014
通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果;
所述通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:
通过文本分类模型对所述转化向量序列进行映射,获得映射向量序列;其中,所述映射向量序列包括对应所述维度词向量的维度词映射向量;
基于所述维度词映射向量和第二注意力权重序列对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果;其中,所述第二注意力权重序列包括正向第二注意力权重序列和反向第二注意力权重序列;
所述正向第二注意力权重序列的计算公式为:
Figure FDA0002734603290000015
Figure FDA0002734603290000021
所述反向第二注意力权重序列的计算公式
Figure FDA0002734603290000022
Figure FDA0002734603290000023
所述第二注意力权重序列根据所述维度词向量确定,所述第二注意力权重序列的取值范围为-1~1;
其中,所述文本分类模型为双向长短期记忆模型;所述转化向量序列包括正向转化向量序列和反向转化向量序列。
2.根据权利要求1所述的方法,其特征在于,所述基于所述维度词向量和第一注意力权重序列对所述词向量序列进行第一注意力机制转化,获得转化向量序列,包括:
根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;
根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
3.根据权利要求1所述的方法,其特征在于,所述基于所述维度词映射向量和第二注意力权重序列对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果,包括:
根据所述维度词映射向量确定对应所述映射向量序列的第二注意力权重序列;
根据所述第二注意力权重序列和所述映射向量序列确定表征向量;
根据所述表征向量确定对应所述指定文本的维度分类结果。
4.根据权利要求1所述的方法,其特征在于,所述通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果,包括:
通过所述双向长短期记忆模型对所述转化向量序列进行映射,获得正向映射向量序列和反向映射向量序列;所述正向映射向量序列包括对应所述维度词向量的正向维度词映射向量;所述反向映射向量序列包括对应所述维度词向量的反向维度词映射向量;
基于所述正向维度词映射向量对所述正向映射向量序列进行正向第二注意力机制转化,获得对应所述正向映射向量序列的正向表征向量序列;
基于所述反向维度词映射向量对所述反向映射向量序列进行反向第二注意力机制转化,获得对应所述反向映射向量序列的反向表征向量序列;
对所述正向表征向量和所述反向表征向量进行拼接,获得文本向量,所述文本向量用于确定所述指定文本的维度分类结果。
5.根据权利要求1所述的方法,其特征在于,所述文本分类模型的参数包括词向量参数、转化向量参数、映射向量参数和表征向量参数。
6.根据权利要求1所述的方法,其特征在于,在所述通过文本分类模型对所述转化向量进行分类的过程中,所述方法还包括:
根据交叉熵确定所述文本分类模型的损失函数。
7.一种文本处理设备,其特征在于,所述设备包括:
分词模块,用于对指定文本进行分词处理,得到词向量序列;其中,所述词向量序列包含维度词向量;
转化模块,用于基于所述维度词向量和第一注意力权重序列对所述词向量序列进行第一注意力机制转化,获得转化向量序列;其中,
所述正向第一注意力权重序列的计算公式为:
Figure FDA0002734603290000031
Figure FDA0002734603290000032
所述反向第一注意力权重的计算公式为:
Figure FDA0002734603290000033
Figure FDA0002734603290000034
分类模块,用于通过文本分类模型对所述转化向量序列进行分类,确定对应所述指定文本的维度分类结果;
所述分类模块,包括:映射子模块,用于通过文本分类模型对所述转化向量序列进行映射,获得映射向量序列;其中,所述映射向量序列包括对应所述维度词向量的维度词映射向量;
转化子模块,用于基于所述维度词映射向量和第二注意力权重序列对所述映射向量序列进行第二注意力机制转化,获得对应所述指定文本的维度分类结果;其中,
所述正向第二注意力权重序列的计算公式为:
Figure FDA0002734603290000041
Figure FDA0002734603290000042
所述反向第二注意力权重序列的计算公式
Figure FDA0002734603290000043
Figure FDA0002734603290000044
其中,所述文本分类模型为双向长短期记忆模型;所述转化向量序列包括正向转化向量序列和反向转化向量序列。
8.根据权利要求7所述的设备,其特征在于,所述转化模块,包括:
权重确定子模块,用于根据所述维度词向量确定对应所述词向量序列的第一注意力权重序列;
序列确定子模块,还用于根据所述第一注意力权重序列和所述词向量序列确定转化向量序列。
9.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-6任一项所述的文本处理方法。
CN202010161034.4A 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质 Active CN111291189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010161034.4A CN111291189B (zh) 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010161034.4A CN111291189B (zh) 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111291189A CN111291189A (zh) 2020-06-16
CN111291189B true CN111291189B (zh) 2020-12-04

Family

ID=71017846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010161034.4A Active CN111291189B (zh) 2020-03-10 2020-03-10 一种文本处理方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111291189B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688822A (zh) * 2021-09-07 2021-11-23 河南工业大学 一种时序注意力机制场景图像识别方法
CN117312582A (zh) * 2022-06-21 2023-12-29 腾讯科技(深圳)有限公司 基于注意力模块的信息识别方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN110083833A (zh) * 2019-04-18 2019-08-02 东华大学 中文字词向量和方面词向量联合嵌入情感分析方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10388274B1 (en) * 2016-03-31 2019-08-20 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN108363753B (zh) * 2018-01-30 2020-05-19 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109857860A (zh) * 2019-01-04 2019-06-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN109992780B (zh) * 2019-03-29 2022-07-01 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法
CN110334209B (zh) * 2019-05-23 2024-05-07 平安科技(深圳)有限公司 文本分类方法、装置、介质及电子设备
CN110263162B (zh) * 2019-06-05 2023-05-26 创新先进技术有限公司 卷积神经网络及其进行文本分类的方法、文本分类装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN110083833A (zh) * 2019-04-18 2019-08-02 东华大学 中文字词向量和方面词向量联合嵌入情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AELA-DLSTMs:Attention-Enabled and Location-Aware Double LSTMs for aspect-level sentiment classfication;Kai Shuang et al.;《Neurocomputing》;20190321;第334卷;第25-34页 *
Effective Strategies for Combining Attention Mechanism with LSTM for Aspect-Level Sentiment Classification;Kai Shuang et al.;《Proceeding of SAI Intelligent Systems Conference,Springer》;20181108;全文 *
多维度用户评论情感分析系统的研究与实现;任鑫涛;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190815(第08期);第23-35页 *

Also Published As

Publication number Publication date
CN111291189A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN110827129A (zh) 一种商品推荐方法及装置
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
CN108563624A (zh) 一种基于深度学习的自然语言生成方法
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN109598387A (zh) 基于双向跨模态注意力网络模型的股价预测方法及系统
CN110580341A (zh) 一种基于半监督学习模型的虚假评论检测方法及系统
CN111291189B (zh) 一种文本处理方法、设备及计算机可读存储介质
Phan et al. Consensus-based sequence training for video captioning
CN111639247A (zh) 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质
Huynh et al. Context-similarity collaborative filtering recommendation
CN114372532B (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN111598153A (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
CN116450848B (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN114595693A (zh) 一种基于深度学习的文本情感分析方法
CN116977020A (zh) 一种基于大数据的直播购物推荐化方法
CN111382232A (zh) 问答信息处理方法、装置及计算机设备
CN116721071A (zh) 一种基于弱监督的工业产品表面缺陷检测方法及装置
CN114358813B (zh) 一种基于场矩阵因子分解机改进的广告投放方法及系统
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN114138967A (zh) 双重最相关推荐方法、装置、设备及存储介质
CN111177493A (zh) 数据处理方法、装置、服务器和存储介质
Lu et al. Lightweight strip steel defect detection algorithm based on improved YOLOv7

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant