CN113836939A - 基于文本的数据分析方法和装置 - Google Patents

基于文本的数据分析方法和装置 Download PDF

Info

Publication number
CN113836939A
CN113836939A CN202111124205.7A CN202111124205A CN113836939A CN 113836939 A CN113836939 A CN 113836939A CN 202111124205 A CN202111124205 A CN 202111124205A CN 113836939 A CN113836939 A CN 113836939A
Authority
CN
China
Prior art keywords
attribute
label
tendency
probability
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111124205.7A
Other languages
English (en)
Other versions
CN113836939B (zh
Inventor
刘晨晖
徐思琪
黄强
卓泽城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111124205.7A priority Critical patent/CN113836939B/zh
Publication of CN113836939A publication Critical patent/CN113836939A/zh
Application granted granted Critical
Publication of CN113836939B publication Critical patent/CN113836939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

提供了一种基于文本的数据分析方法和装置,涉及计算机技术领域,尤其涉及自然语言处理、云计算领域。实现方案为:获取目标文本,目标文本包括第一分词,第一分词归属于属性词,第一分词的数量为至少两个;获取与第一分词对应的第一联合标签,第一联合标签指示对应的第一语义倾向;以及基于第一联合标签,获取目标文本的文本语义倾向,其中,文本语义倾向与第一语义倾向相关。

Description

基于文本的数据分析方法和装置
技术领域
本公开涉及计算机技术领域,尤其自然语言处理、云计算领域,具体涉及一种基于文本的数据分析方法和装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
基于人工智能的语言处理技术已经渗透到各个领域。其中,基于人工智能处理评论文本,以获得评论文本的语义倾向,实现为用户提供产品的全方位评价和对热点事件进行舆情监控。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种基于文本的数据分析方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种基于文本的数据分析方法,包括:获取目标文本,所述目标文本包括第一分词,所述第一分词归属于属性词,所述第一分词的数量为至少两个;获取与所述第一分词对应的第一联合标签,所述第一联合标签指示对应的第一语义倾向;以及基于所述第一联合标签,获取所述目标文本的文本语义倾向,其中,所述文本语义倾向与所述第一语义倾向相关。
根据本公开的另一方面,提供了一种基于文本的数据分析装置,包括:第一获取单元,被配置用于获取目标文本,所述目标文本包括第一分词,所述第一分词归属于属性词,所述第一分词的数量为至少两个;第二获取单元,被配置用于获取与所述第一分词对应的第一联合标签,所述第一联合标签指示对应的第一语义倾向;以及第三获取单元,被配置用于基于所述第一联合标签,获取所述目标文本的文本语义倾向,其中,所述文本语义倾向与所述第一语义倾向相关。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器实现根据上述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机实现根据上述的方法。
根据本公开的一个或多个实施例,基于文本获得语义倾向,由于对应于属于属性词的至少两个第一分词均对应于第一语义倾向,即同一属性词中的分词对应于同一语义倾向,使得属性词的各个分词的语义倾向一致性,即使获得的属性词的语义倾向更加准确,从而使文本的语义倾向更加准确。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
图2示出了根据本公开的一些实施例的基于文本的数据分析方法的流程图;
图3示出了根据本公开的一些实施例的基于文本的数据分析方法中获取与第一分词对应的第一联合标签的过程的流程图;
图4示出了根据本公开的一些实施例的基于文本的数据分析方法中基于词索引序列获取第二分词对应的第二联合标签的过程的流程图;
图5示出了根据本公开的一些实施例的基于文本的数据分析方法中基于第一概率和第二概率获得第二分词的第三概率的过程的流程图;
图6示出了根据本公开的一些实施例的基于文本的数据分析方法中获取第三概率的过程的流程图;
图7示出了根据本公开的一些实施例的基于文本的数据分析方法中的标签继承矩阵的示意图;
图8示出了根据本公开的一些实施例的基于文本的数据分析方法中采用的语义分析模型的架构示意图;
图9示出了根据本公开的基于文本的数据分析装置的结构框图;以及
图10示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
本公开的应用范围可以但不限于应用于智慧城市场景。
下面将结合附图详细描述本公开的实施例。
图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。
在本公开的实施例中,服务器120可以运行使得能够执行向客户端设备基于文本的数据分析方法的一个或多个服务或软件应用。
在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。
在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与系统100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。
用户可以使用客户端设备101、102、103、104、105和/或106来基于服务器120获取的属性词对应的语义倾向,获取产品的全方位评价。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备,但是本领域技术人员将能够理解,本公开可以支持任何数量的客户端设备。
客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统,例如Microsoft Windows、AppleiOS、类UNIX操作系统、Linux或类Linux操作系统(例如Google Chrome OS);或包括各种移动操作系统,例如Microsoft Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序,例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序,并且可以使用各种通信协议。
网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。
服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。
服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。
在一些实施方式中,服务器120可以包括一个或多个应用程序,以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序,以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。
在一些实施方式中,服务器120可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。
系统100还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如,由服务器120使用的数据存储库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中,由服务器120使用的数据存储库可以是数据库,例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件系统支持的常规存储库。
在相关技术中,在基于文本获取语义倾向的过程中,通过获得评论文本的包括多个联合标签的联合标签分布获取评论文本中的属性词以及属性词对应的语义倾向,从而获得评论文本的语义倾向。由于获取联合标签分布的过程中往往忽视标签的序列特征,使联合标签分布包括的多个联合标签中与属性词的对应于的一个或多个联合标签中的各个联合标签往往对应于不同的语义倾向,即联合标签分布出现情感一致性错误。例如,对于评论文本“食物还不错”,对应于属性词“食物”的两个联合标签(对应于“食”的第一联合标签和对应于“物”的第二联合标签)对应于不同的语义倾向(积极语义倾向、消极语义倾向)。从而使根据联合标签分布无法得到属性词对应的语义倾向,进而无法得到文本的语义倾向。
图1的系统100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
本公开的一方面提供了一种基于文本的数据分析方法。
参看图2,根据本公开的一些实施例的一种基于文本的数据分析方法200包括:
步骤S210:获取目标文本,所述目标文本包括第一分词,所述第一分词归属于属性词,所述第一分词的数量为至少两个;
步骤S220:获取与所述第一分词对应的第一联合标签,所述第一联合标签指示对应的第一语义倾向;以及
步骤S230:基于所述第一联合标签,获取所述目标文本的文本语义倾向,其中,所述文本语义倾向与所述第一语义倾向相关。
根据本公开的一个或多个实施例,基于文本获得语义倾向,由于对应于归属于属性词的至少两个第一分词均对应于第一语义倾向,即同一属性词中的分词对应于同一语义倾向,使得属性词的各个分词的语义倾向一致性,即使获得的属性词的语义倾向更加准确,从而使文本的语义倾向更加准确。
在相关技术中,采用基于文本获得语义倾向,其中对于同一属性词的多个分词对应于不同的语义倾向,使同一属性词对应多种不同的语义倾向,从而无法准确获得属性词的语义倾向,进而无法准确获取文本的语义倾向。
例如,对于评论文本“食物还不错”,对于属性词“食物”包括两个第一分词,“食”和“物”。在相关技术中,获得第一分词“食”和第一分词“物”的语义倾向可能为不同的语义倾向,例如第一分词“食”的语义倾向为积极倾向,第一分词“物”的语义倾向为消极倾向,使得对于属性词“食物”,其语义倾向不明确,进而无法获得评论文本“食物还不错”的准确的语义倾向。
在根据本公开的实施例中,由于对归属于属性词的至少两个第一分词获得的语义倾向均为第一语义倾向,即相同的语义倾向,使能够获得属性词的准确的语义倾向,进而能够获得评论文本的准确的语义倾向。仍以评论文本“食物还不错”为例,在根据本公开的实施例中,对于第一分词“食”和第一分词“物”,获得的语义倾向均为积极倾向,从而可以获得属性词“食物”的语义倾向为积极倾向,进一步,可以获得评论文本“食物还不错”的语义倾向为积极倾向。
在一些实施例中,文本可以是直接读取文本数据获取的文本,也可以是基于语音识别或图像识别获取的文本。评论文本是指具有评价对象的文本,其中,属性词是与评价对象相关的词,例如,在与餐厅相关的评论文本中,评价对象可以是食物,服务等,与食物相关的属性词可以是“味道”、“食物”、“水煮鱼”等,在此并不限定。在一些实施例中,文本还可以包括不具有属性词的文本。
在一些实施例中,在步骤S210中获取目标文本,其中,目标文本是包含有评价对象的评论文本。
在另一些实施例中,在步骤S210中还包括获取不具有评价对象的文本,以进行后续处理。
在一些实施例中,所述目标文本包括第二分词,所述第二分词至少包括所述第一分词,并且其中,如图3所示,获取与所述第一分词对应的第一联合标签包括:
步骤S310:获取所述目标文本的词索引序列,所述词索引序列指示所述第二分词在所述目标文本中的位置;
步骤S320:基于所述词索引序列,获取所述第二分词对应的第二联合标签;以及
步骤S330:基于所述第二联合标签,获取所述第一联合标签。
基于文本的第一分词获得词索引序列,并基于词索引序列获得第二联合标签,由于该词索引序列与第二分词在文本中的位置相关,使得基于该词索引序列获得的第二联合标签与文本的语义特征相关,获得的第二联合标签准确。
需要说明的是,本公开的术语“第二分词”为文本的多个分词,例如对于评论文本“食物还不错”,其中第二分词包括“食”、“物”、“还”、“不”以及“错”,其中,“食”和“物”归属于属性词为“食物”,“还”、“不”以及“错”归属于非属性词(其他词)。
同时,术语“第二联合标签”为与“第二分词”对应的多个联合标签,其中,对于作为第二分词的多个分词中的每一个分词,其具有唯一对应的联合标签。
在一些实施例中,联合标签包括指示分词是否为属性词的属性标签和分词对应的语义倾向的联合。
在一些实施例中,属性标签包括:属性词起始标签B、属性词中间标签I、以及其他词标签O,语义倾向包括:积极倾向POS、消极倾向NEG、以及中立倾向NEU;因此联合标签包括属性词起始-积极倾向标签B-POS、属性词起始标签-消极倾向标签B-NEG、属性词起始-中立倾向标签B-NEU、属性词中间-积极倾向标签I-POS、属性词中间-消极倾向标签I-NEG、属性词中间-中立倾向标签-I-NEU、其他词-积极倾向标签O-POS、其他词-消极倾向标签O-NEG以及其他词-中立倾向标签O-NEU。
在相关技术中,获得的评论文本的多个分词中的各个分词对应的联合标签分别从上述标签上选择,使同一属性词的两个分词各自对应的联合标签分别指向不同的语义倾向。例如,对于评论文本“食物还不错”的各个分词“食”、“物”、“还”、“不”以及“错”,分别获得联合标签为B-POS、I-NEG、O-NEU、O-NEU以及O-NEU,上述联合标签中,属性词“食物”的分词“食”和分词“物”分别对应于联合标签B-POS、联合标签I-NEG,两者分别指向积极倾向和消极倾向,从而使根据上述联合标签无法获得属性词“食物”的语义倾向,进而也无法获得评论文本“食物还不错”的语义倾向。
在根据公开的实施例中,对于评论文本“食物还不错”的第二分词“食”、“物”、“还”、“不”以及“错”,获得的第二联合标签包括:B-POS、B-POS、I-POS、O-NEU以及O-NEU,其中,B-POS、I-POS为对应于属性词“食物”中的第一分词“食”和第一分词“物”的第一联合标签,其均指示为积极倾向的第一语义倾向,从而可以获得“食物”的语义倾向为积极倾向,进而评论文本“食物还不错”的语义倾向为积极倾向。
需要说明的是,上述属性标签、语义倾向以及联合标签的示例仅仅是示例性的,本领域技术人员应当理解,还可以设置其他类型的属性标签和语义倾向。例如还可以设置属性标签包括:评价词起始标签、评价词中间标签等。
在一些实施例中,在步骤S310中,基于文本的多个分词,采用序列模型获取词索引序列。在一些实施例中,在步骤S310中,经过文本预处理得到词索引序列,其中文本预处理包括冗余标点符号去除、筛查过短评论、更正错别字等等。
在一些实施例中,如图4所示、基于所述词索引序列,获取所述第二分词对应的第二联合标签包括:
步骤S410:获取所述第二分词的第一概率,所述第一概率指示:与第一属性标签和第二语义倾向对应的概率;
步骤S420:获取所述第二分词的第二概率,所述第二概率指示:与第二属性标签对应的概率,其中,所述第二概率中的最大值与所述第二属性标签中的第三属性标签对应;
步骤S430:基于所述第一概率和所述第二概率,获得所述第二分词的第三概率,所述第三概率指示:与所述第二属性标签和第三语义倾向对应的概率,所述第三概率中的最大值与所述第三语义倾向和所述第三属性标签对应;以及
步骤S440:基于所述第三概率,获取所述第二联合标签。
基于词索引序列获得第二分词的第一概率由于第一概率同时指示属性标签(第一属性标签)和语义倾向(第二语义倾向),其可能不准确,如前述相关技术中所提到的同一属性词的两个分词对应于不同的语义倾向的情况。在根据本公开的实施例中,基于词索引序列进一步获得第二分词的第一概率,由于其仅仅指示属性标签(第二属性标签),使获得的属性标签的准确度更高。因此,采用第二概率对第一概率进行增强,获得第三概率,使第三概率指示的属性标签和语义倾向(第三语义倾向)被第二概率增强,能够指示更加准确的属性标签(第二属性标签),进而使获得的第二联合标签准确。
同时,由于基于词索引序列获得第一概率的过程与基于词索引序列获得第二概率的过程在不同的步骤中实现,两者分开进行;使获得指示对应的属性标签的第二概率的过程不被获得同时指示属性标签和语义倾向的第一概率的过程干扰,使获得的第二概率准确。
由于第二概率指示对应的属性标签,其与属性标签对应的边界特征相关。在基于第一概率和第二概率获得指示属性标签(第二属性标签)和语义倾向(第三语义倾向)的第三概率的过程中,使第三概率融合第二概率相关的属性标签对应的边界特征,使获得的指示属性标签和语义倾向的第三概率准确。进一步提升根据第三概率获得的第二联合标签的准确性。
需要说明的是,本公开的术语“第一概率”是指与作为第二分词的多个分词一一对应的多个概率,每一个概率指示对应的分词在步骤S410中可能对应的多个属性标签和多个语义倾向,该多个属性标签和多个语义倾向分别为“第一属性标签”和“第一语义倾向”。
同时,本公开的术语“第二概率”指与作为第二分词的多个分词一一对应的多个概率,每一个概率指示对应的分词在步骤S420中可能对应的多个属性标签,该多个属性标签为“第二属性标签”;其中,在该多个属性标签(第二属性标签)中,对应的分词最可能对应的属性标签为第三属性标签,即与第三属性标签对应的可能性最大。
同时,本公开的术语“第三概率”指与作为第二分词的多个分词一一对应的多个概率,每一个概率指示对应的分词在步骤S430中所对应的和多个语义倾向,该多个属性标签和多个语义倾向分别为“第二属性标签”和“第三语义倾向”;其中,在该多个属性标签(第二属性标签)中,对应的分词最可能对应的属性标签为第三属性标签(被第二概率增强,而与步骤S420获得的指示对可能对应的属性标签的结果相同)。
同时,需要理解的是,本公开的实施例中“第一属性标签”、“第二属性标签”以及“第三属性标签”均为从前述包括属性词起始标签B、属性词中间标签I、以及其他词标签O的属性标签中获得的多个属性标签,其可能为相同的多个属性标签也可能为不同的多个属性标签,在此并不限定。所不同之处在于,“第一属性标签”和“第二属性标签”分别为第二分词中的多个分词中的每一个分词对应的多个属性标签的集合;而“第三属性标签”为第二分词中的多个分词中的每一个分词最可能对应的一个属性标签的集合。
同时,需要理解的是,本公开的实施例中“第一语义倾向”和“第三语义倾向”均为从前述包括积极倾向POS、消极倾向NEG、以及中立倾向NEU的多个语义倾向其可能为相同的多个语义倾向也可能为不同的多个语义倾向,在此并不限定。
在一些实施例中,如图5所示,基于所述第一概率和所述第二概率,获得所述第二分词的第三概率包括:
步骤S510:获取所述第三属性标签和所述第三语义倾向之间的对应关系;以及
步骤S520:基于所述第一概率、所述第二概率以及所述对应关系,获取所述第三概率。
基于属性标签和语义倾向之前的对应关系,获得第三概率,使指示属性标签和语义倾向的第三概率还融合属性标签和语义倾向之间的对应关系带来的特征(例如,标签继承特征),使获得的第三概率进一步准确指示语义倾向,进而使获得的第二联合标签准确。
在一些实施例中,所述第三属性标签包括其他词标签,所述其他词标签指示不属于属性词的第三分词,以及所述语义倾向包括中立倾向,其中所述对应关系包括指示其他词标签仅与所述中立倾向对应的其他词标签与中立倾向对应关系。
将其他词标签仅与中立倾向对应,使获得的第三概率指示其他词标签时必然指示中立倾向对应关系,使数据处理量少。
在一些实施例中,属性标签包括:属性词起始标签B、属性词中间标签I、以及其他词标签O;语义倾向包括:积极倾向POS、消极倾向NEG、以及中立倾向NEU;以及对应关系包括:属性词起始标签与积极倾向对应关系B-POS、属性词起始标签与消极倾向对应关系B-NEG、属性词起始标签与中立倾向对应B-NEU、属性词中间标签与积极倾向对应关系I-POS、属性词中间标签与消极倾向对应关系I-NEG以及属性词中间标签与中立倾向对应关系I-NEU。
在一些实施例中,获取所述第二分词的第一概率包括:获取所述第二分词的联合标签向量,所述联合标签向量的维数与所述对应关系的数量对应,并且其中,所述获取所述第二分词的第二概率包括:获取所述第二分词的属性标签向量,所述属性标签向量的维数与所述属性标签的数量对应;并且其中,如图6所示,所述获取所述第三概率包括:
步骤S610:基于所述对应关系,获取标签继承矩阵,其中所述标签继承矩阵的行数与所述属性标签向量的维数对应,所述标签继承矩阵的列数与所述联合标签向量的维数对应;
步骤S620:基于所述属性标签向量和所述标签继承矩阵,获得第一属性标签向量,所述第一属性标签向量与所述联合标签向量具有相同的维数;以及
步骤S630:基于所述第一属性标签向量与所述联合标签向量,获取所述增强联合标签向量。
基于词索引序列获得第二分词的对应于第一概率的联合标签向量和对应于第二概率的属性标签向量,并基于对应关系获得标签继承矩阵,进而根据联合标签向量、属性标签向量和标签继承矩阵获得对应于第三概率的增强联合标签向量,使概率的处理转化为向量的处理,减少数据处理量。
在一些实施例中,所述获取所述第二分词的属性标签向量包括:对所述词索引序列执行属性词抽取,以获取所述属性标签向量。
对词索引序列执行属性词抽取,获得第二分词的属性标签向量,由于抽取的属性词准确,使获得的属性标签向量准确,进而提升基于该属性标签向量获得增强联合标签向量的准确性,从而提升基于增强联合标签向量获得第二联合标签的准确性。
在一些实施例中,通过属性词抽取模型,基于词索引序列获得第二分词的属性标签向量。在一些实施例中,属性词抽取模型包括bert模型和全链接层。其中,bert模型基于词缩影序列获取第二分词表示向量
Figure BDA0003278232260000131
全链接层基于词分析向量计算得到对应的属性标签向量
Figure BDA0003278232260000132
其中,1≤k≤N,其中N为第二分词中的多个分词的数量,k在大于0小于等于N的正整数中取值,以表示第二分词中的各个分词。
在一些实施例中,所述获取所述第二分词的联合标签向量包括:对所述词索引序列执行属性语义倾向分析,以获取所述联合标签向量。
对词索引序列执行属性语义倾向分析,获得第二分词的联合标签向量,由于属性语义倾向分析直接针对词索引序列进行,与文本的语义特征相关,使获得的联合标签向量与语义特征相关,提升所获得的联合标签向量的准确性。进而提升基于该联合标签向量获得增强联合标签向量的准确性,从而提升基于增强联合标签向量获得第二联合标签的准确性。同时,根据属性语义倾向分析直接获得联合标签向量,仅仅需要一次计算过程,也提升计算效率。
在相关技术中,基于两阶段模型,获得联合标签特征,两阶段模型中对文本中的属性词抽取和属性词情感分类分别建模,先基于属性词抽取获得的属性词,再基于属性词抽取获得的属性词进行属性词分类,以获得属性词对应的语义倾向。由于属性词抽取不能保证获得完全正确的属性词,针对错误的属性词,在属性情感分类中所得到的语义倾向必然也是错误的,容易造成属性词抽取的错误结果在属性词情感分类中的传递。同时,在涉及包括多个属性词的评论文本中,为了能够得到每个属性词对应的语义倾向,需要针对同一文本进行多次计算,使效率大大降低。
在一些实施例中,端到端性级语义分析模型包括bert模型和全链接层。在步骤S610中,采用bert模型基于词缩影序列获取第二分词的词分析向量
Figure BDA0003278232260000141
在步骤S620中,采用全链接层基于词分析向量计算得到对应的联合标签向量
Figure BDA0003278232260000142
其中,1≤k≤N,其中N为第二分词中的多个分词的数量,k在大于0小于等于N的正整数中取值,以表示多个分词中对应的分词。
在根据本公开的实施例中,通过端到端属性级语义分析模型,直接获取与分词的属性标签和语义倾向相关的联合标签特征,其对属性词抽取和属性词对应的语义倾向分析联合建模,通过改良标注标签,使标签融合属性词边界信息和情感信息,实现属性词及其语义倾向的联合抽取。同时,可以实现对同一文本中包括的多个属性词同时获取属性分析结果。
在一些实施例中,基于所述联合标签向量、属性标签向量和标签继承矩阵W,采用公式(1)获取所述增强联合标签向量包括:
Figure BDA0003278232260000143
其中,矩阵W中元素Wij的值通过如下函数定义(本参数矩阵不随模型训练更新):
Figure BDA0003278232260000144
其中,i表示多个属性标签(属性词起始标签B、属性词中间标签I、以及其他词标签O)中的任意一个属性标签;Bi表示与属性标签i相关的联合标签的集合。例如,对于属性词中间标签I,与其相关的联合标签集合为(I-POS,I-NEU,I-NEU),因此WI,I-POS、WI,I-NEU、WI,I-NEG对应位置上的值为1。参看图7示出了根据本公开的一个实施例的标签继承矩阵W的示例,其中标签继承矩阵W为3×7矩阵。
需要理解的是,本公开的实施例中,多个属性标签包括属性词起始标签B、属性词中间标签I和其他词标签O,以及所述多个语义倾向包括情感积极倾向POS、情感消极倾向NEG和情感中立倾向NEU,以及多个属性标签和多个语义倾向之间对应如图7所示的标签继承矩阵W为示例进行说明,仅仅是示例性的,本领域技术人员应当理解,还可以设置其他属性词标签和语义倾向以及其他标签继承矩阵。
在一些实施例中,采用条件随机场模型基于第二分词对应的增强联合标签向量,获取联合标签分布,该联合标签分布包括第二联合标签。例如,采用条件随机场模型基于维特比解码计算,获得联合标签分布。
在一些实施例中,在步骤S220中,采用语义分析模型,基于目标文本,获取目标文本的联合标签分布。在一些实施例中,语义分析模型为采用属性词抽取模型进行边界增强的端到端属性语义分析模型。
参看图8,示出了根据本公开的一个实施例的语义分析模型的架构示意图。其中,语义分析模型800包括端到端属性语义分析模型810和属性词抽取模型820。端到端属性语义分析模型810包括第一bert模型911和第一全链接层812,属性词抽取模型820包括第二bert模型821和第二全链接层822。词索引序列分别输入语义分析模型900的端到端属性语义分析模型810和属性词抽取模型820中进行计算。词索引序列经由第一bert模型811获得第二分词的词分析向量
Figure BDA0003278232260000151
第二分词的词分析向量
Figure BDA0003278232260000152
经由第一全链接层811转化为七维的属性标签向量
Figure BDA0003278232260000153
词索引序列经由第二bert模型821获得第二分词的词表示向量
Figure BDA0003278232260000154
第二分词的词表示向量
Figure BDA0003278232260000155
经由第二全链接层821转化为三维的联合标签向量
Figure BDA0003278232260000156
语义分析模型800还包括计算单元840和条件随机场模型830。计算单元840用以对属性标签向量
Figure BDA0003278232260000157
和联合标签向量
Figure BDA0003278232260000158
与标签继承矩阵W联合计算,获得增强联合标签向量
Figure BDA0003278232260000159
增强联合标签向量
Figure BDA00032782322600001510
经由条件随机场模型830计算获得联合标签分布。
在一些实施例中,对于语义分析模型800的训练过程分两阶段进行:第一阶段,采用训练数据库中的文本的属性标签数据训练属性词抽取模型820,将经训练的属性词抽取模型820的参数用作属性边界辅助模块的初始化;第二阶段,采用训练数据库中的文本的联合标签数据训练端到端属性语义分析模型810,其中,在训练端到端属性语义分析模型810的过程中,属性词抽取模型820的参数随着端到端属性语义分析模型810的参数的更新而更新。
语义分析模型800的训练是一个多任务训练的过程,其损失函数包括属性词抽取模型820的交叉熵损失和端到端属性语义分析模型910的交叉熵损失的加和。例如,采用公式(2)获得语义分析模型900的损失函数
Figure BDA0003278232260000161
其中,
Figure BDA0003278232260000162
为语义分析模型800的损失函数,
Figure BDA0003278232260000163
为端到端属性语义分析模型810的交叉熵损失,
Figure BDA0003278232260000164
为属性词抽取模型820的交叉熵损失。
根据本公开的语义分析模型800,一方面充分发挥端到端语义分析模型的优势,将属性词抽取和语义分析的过程联合建模,获得同时包含属性标签和语义倾向的联合标签特征,另一方面利用属性词抽取模型抽取的属性词对获得的联合标签特征进行边界增强,最终通过语义分析模型获得的联合标签分布具有情感一致性特征、边界特征以及标签继承特征。使获得的联合标签分布准确,从而能够基于联合标签分布获得属性词的准确的语义倾向。
在一些实施例中,步骤S230包括,将联合标签分布中的第二联合标签与目标文本的第二分词进行匹配,获得属性词以及属性词对应的语义倾向。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的另一方面,还提供一种基于文本的数据分析装置。如图9所示,装置900包括:第一获取单元910,被配置用于获取目标文本,所述目标文本包括第一分词,所述第一分词归属于属性词,所述第一分词的数量为至少两个;第二获取单元920,被配置用于获取与所述第一分词对应的第一联合标签,所述第一联合标签指示对应的第一语义倾向;以及第三获取单元930,被配置用于基于所述第一联合标签,获取所述目标文本的文本语义倾向,其中,所述文本语义倾向与所述第一语义倾向相关。
在一些实施例中,所述目标文本包括第二分词,所述第二分词至少包括所述第一分词,并且其中,所述第二获取单元包括:词索引序列获取单元,被配置用于获取所述目标文本的词索引序列,所述词索引序列指示所述第二分词在所述目标文本中的位置;第四获取单元,被配置用于基于所述词索引序列,获取所述第二分词对应的第二联合标签;以及第五获取单元,被配置用于基于所述第二联合标签,获取所述第一联合标签。
在一些实施例中,所述第四获取单元包括:第五获取单元,被配置用于获取所述第二分词的第一概率,所述第一概率指示:与第一属性标签和第二语义倾向对应的概率;第六获取单元,被配置用于获取所述第二分词的第二概率,所述第二概率指示:与第二属性标签对应的概率,其中,所述第二概率中的最大值与所述第二属性标签中的第三属性标签对应;第七获取单元,被配置用于基于所述第一概率和所述第二概率,获得所述第二分词的第三概率,所述第三概率指示:与所述第二属性标签和第三语义倾向对应的概率,所述第三概率中的最大值与所述第三语义倾向和所述第三属性标签对应;以及标签获取单元,被配置用于基于所述第三概率,获取所述第二联合标签。
在一些实施例中,所述第七获取单元包括:第一获取子单元,被配置用于获取所述第三属性标签和所述第三语义倾向之间的对应关系;以及第二获取子单元,被配置用于基于所述第一概率、所述第二概率以及所述对应关系,获取所述第三概率。
在一些实施例中,所述属性标签包括其他词标签,所述其他词标签指示不属于属性词的第三分词,以及所述语义倾向包括中立倾向,其中所述对应关系包括指示其他词标签仅与所述中立倾向对应的其他词标签与中立倾向对应关系。
在一些实施例中,所述第五获取单元被配置用于获取所述第二分词的联合标签向量,所述联合标签向量的维数与所述对应关系的数量对应;所述第六获取单元被配置用于获取所述第二分词的属性标签向量,所述属性标签向量的维数与所述属性标签的数量对应;并且其中,所述第二获取子单元还包括:第九获取单元,被配置用于基于所述对应关系,获取标签继承矩阵,其中所述标签继承矩阵的行数与所述属性标签向量的维数对应,所述标签继承矩阵的列数与所述联合标签向量的维数对应;第十获取单元,被配置用于基于所述属性标签特征向量和所述标签继承矩阵,获得第一属性标签特征向量,所述第一属性标签特征向量与所述联合标签向量具有相同的维数;以及第十一获取单元,被配置用于基于所述第一属性标签特征向量与所述联合标签向量,获取所述增强联合标签向量。
在一些实施例中,所述第五获取单元还被配置用于对所述词索引序列执行属性词抽取,以获取所述属性标签向量。
在一些实施例中,所述第六获取单元还被配置用于对所述词索引序列执行属性语义倾向分析,以获取所述联合标签向量。
根据本公开的另一方面,还提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有计算机程序,所述计算机程序在被所述至少一个处理器执行时实现根据上述的方法。
根据本公开的另一方面,还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被处理器执行时实现根据上述的方法。
根据本公开的另一方面,还提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现根据上述的方法。
参考图10,现将描述可以作为本公开的服务器或客户端的电子设备1000的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006、输出单元1007、存储单元1008以及通信单元1009。输入单元1006可以是能向设备1000输入信息的任何类型的设备,输入单元1006可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1007可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1008可以包括但不限于磁盘、光盘。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如方法1000。例如,在一些实施例中,方法200可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的方法200的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (20)

1.一种基于文本的数据分析方法,包括:
获取目标文本,所述目标文本包括第一分词,所述第一分词归属于属性词,所述第一分词的数量为至少两个;
获取与所述第一分词对应的第一联合标签,所述第一联合标签指示对应的第一语义倾向;以及
基于所述第一联合标签,获取所述目标文本的文本语义倾向,其中,所述文本语义倾向与所述第一语义倾向相关。
2.根据权利要求1所述的方法,其中,所述目标文本包括第二分词,所述第二分词至少包括所述第一分词,并且其中,
所述获取与所述第一分词对应的第一联合标签包括:
获取所述目标文本的词索引序列,所述词索引序列指示所述第二分词在所述目标文本中的位置;
基于所述词索引序列,获取所述第二分词对应的第二联合标签;以及
基于所述第二联合标签,获取所述第一联合标签。
3.根据权利要求2所述的方法,其中,所述基于所述词索引序列,获取所述第二分词对应的第二联合标签包括:
获取所述第二分词的第一概率,所述第一概率指示:与第一属性标签和第二语义倾向对应的概率;
获取所述第二分词的第二概率,所述第二概率指示:与第二属性标签对应的概率,其中,所述第二概率中的最大值与所述第二属性标签中的第三属性标签对应;
基于所述第一概率和所述第二概率,获得所述第二分词的第三概率,所述第三概率指示:与所述第二属性标签和第三语义倾向对应的概率,所述第三概率中的最大值与所述第三语义倾向和所述第三属性标签对应;以及
基于所述第三概率,获取所述第二联合标签。
4.根据权利要求3所述的方法,其中,所述基于所述第一概率和所述第二概率,获得所述第二分词的第三概率包括:
获取所述第三属性标签和所述第三语义倾向之间的对应关系;以及
基于所述第一概率、所述第二概率以及所述对应关系,获取所述第三概率。
5.根据权利要求4所述的方法,其中,所述第三属性标签包括其他词标签,所述其他词标签指示不属于属性词的第三分词,以及所述语义倾向包括中立倾向,其中所述对应关系包括指示其他词标签仅与所述中立倾向对应的其他词标签与中立倾向对应关系。
6.根据权利要求4或5所述的方法,其中,所述获取所述第二分词的第一概率包括:
获取所述第二分词的联合标签向量,所述联合标签向量的维数与所述对应关系的数量对应,并且其中,所述获取所述第二分词的第二概率包括:
获取所述第二分词的属性标签向量,所述属性标签向量的维数与所述属性标签的数量对应;并且其中,所述获取所述第三概率包括:
基于所述对应关系,获取标签继承矩阵,其中所述标签继承矩阵的行数与所述属性标签向量的维数对应,所述标签继承矩阵的列数与所述联合标签向量的维数对应;
基于所述属性标签向量和所述标签继承矩阵,获得第一属性标签向量,所述第一属性标签向量与所述联合标签向量具有相同的维数;以及
基于所述第一属性标签向量与所述联合标签向量,获取所述增强联合标签向量。
7.根据权利要求6所述的方法,其中,所述获取所述第二分词的属性标签向量包括:
对所述词索引序列执行属性词抽取,以获取所述属性标签向量。
8.根据权利要求6所述的方法,其中,所述获取所述第二分词的联合标签向量包括:
对所述词索引序列执行属性语义倾向分析,以获取所述联合标签向量。
9.根据权利要求4-8任一项所述的方法,其中,
所述第三属性标签包括:属性词起始标签B、属性词中间标签I、以及其他词标签O;
所述第三语义倾向包括:积极倾向POS、消极倾向NEG、以及中立倾向NEU;以及
所述对应关系还包括:属性词起始标签与积极倾向对应关系B-POS、属性词起始标签与消极倾向对应关系B-NEG、属性词起始标签与中立倾向对应B-NEU、属性词中间标签与积极倾向对应关系I-POS、属性词中间标签与消极倾向对应关系I-NEG以及属性词中间标签与中立倾向对应关系I-NEU。
10.一种基于文本的数据分析装置,包括:
第一获取单元,被配置用于获取目标文本,所述目标文本包括第一分词,所述第一分词归属于属性词,所述第一分词的数量为至少两个;
第二获取单元,被配置用于获取与所述第一分词对应的第一联合标签,所述第一联合标签指示对应的第一语义倾向;以及
第三获取单元,被配置用于基于所述第一联合标签,获取所述目标文本的文本语义倾向,其中,所述文本语义倾向与所述第一语义倾向相关。
11.根据权利要求10所述的装置,其中,所述目标文本包括第二分词,所述第二分词至少包括所述第一分词,并且其中,所述第二获取单元包括:
词索引序列获取单元,被配置用于获取所述目标文本的词索引序列,所述词索引序列指示所述第二分词在所述目标文本中的位置;
第四获取单元,被配置用于基于所述词索引序列,获取所述第二分词对应的第二联合标签;以及
第五获取单元,被配置用于基于所述第二联合标签,获取所述第一联合标签。
12.根据权利要求11所述的装置,其中,所述第四获取单元包括:
第五获取单元,被配置用于获取所述第二分词的第一概率,所述第一概率指示:与第一属性标签和第二语义倾向对应的概率;
第六获取单元,被配置用于获取所述第二分词的第二概率,所述第二概率指示:与第二属性标签对应的概率,其中,所述第二概率中的最大值与所述第二属性标签中的第三属性标签对应;
第七获取单元,被配置用于基于所述第一概率和所述第二概率,获得所述第二分词的第三概率,所述第三概率指示:与所述第二属性标签和第三语义倾向对应的概率,所述第三概率中的最大值与所述第三语义倾向和所述第三属性标签对应;以及
标签获取单元,被配置用于基于所述第三概率,获取所述第二联合标签。
13.根据权利要求12所述的装置,其中,所述第七获取单元包括:
第一获取子单元,被配置用于获取所述第三属性标签和所述第三语义倾向之间的对应关系;以及
第二获取子单元,被配置用于基于所述第一概率、所述第二概率以及所述对应关系,获取所述第三概率。
14.根据权利要求13所述的装置,其中,所述第三属性标签包括其他词标签,所述其他词标签指示不属于属性词的第三分词,以及所述语义倾向包括中立倾向,其中所述对应关系包括指示其他词标签仅与所述中立倾向对应的其他词标签与中立倾向对应关系。
15.根据权利要求13或14所述的装置,其中,所述第五获取单元被配置用于获取所述第二分词的联合标签向量,所述联合标签向量的维数与所述对应关系的数量对应;
所述第六获取单元被配置用于获取所述第二分词的属性标签向量,所述属性标签向量的维数与所述属性标签的数量对应;并且其中,
所述第二获取子单元还包括:
第九获取单元,被配置用于基于所述对应关系,获取标签继承矩阵,其中所述标签继承矩阵的行数与所述属性标签向量的维数对应,所述标签继承矩阵的列数与所述联合标签向量的维数对应;
第十获取单元,被配置用于基于所述属性标签向量和所述标签继承矩阵,获得第一属性标签向量,所述第一属性标签向量与所述联合标签向量具有相同的维数;以及
第十一获取单元,被配置用于基于所述第一属性标签向量与所述联合标签向量,获取所述增强联合标签向量。
16.根据权利要求15所述的装置,其中,所述第五获取单元还被配置用于对所述词索引序列执行属性词抽取,以获取所述属性标签向量。
17.根据权利要求15所述的装置,其中,所述第六获取单元还被配置用于对所述词索引序列执行属性语义倾向分析,以获取所述联合标签向量。
18.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任意一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。
20.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。
CN202111124205.7A 2021-09-24 2021-09-24 基于文本的数据分析方法和装置 Active CN113836939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111124205.7A CN113836939B (zh) 2021-09-24 2021-09-24 基于文本的数据分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111124205.7A CN113836939B (zh) 2021-09-24 2021-09-24 基于文本的数据分析方法和装置

Publications (2)

Publication Number Publication Date
CN113836939A true CN113836939A (zh) 2021-12-24
CN113836939B CN113836939B (zh) 2023-07-21

Family

ID=78969992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111124205.7A Active CN113836939B (zh) 2021-09-24 2021-09-24 基于文本的数据分析方法和装置

Country Status (1)

Country Link
CN (1) CN113836939B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
CN106339368A (zh) * 2016-08-24 2017-01-18 乐视控股(北京)有限公司 文本情感倾向的获取方法及装置
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
US20180365223A1 (en) * 2017-06-14 2018-12-20 Institute For Information Industry Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof
CN112989792A (zh) * 2021-04-25 2021-06-18 中国人民解放军国防科技大学 事例检测方法和电子设备
CN113051932A (zh) * 2021-04-06 2021-06-29 合肥工业大学 语义和知识扩展主题模型的网络媒体事件的类别检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
CN106339368A (zh) * 2016-08-24 2017-01-18 乐视控股(北京)有限公司 文本情感倾向的获取方法及装置
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
US20180365223A1 (en) * 2017-06-14 2018-12-20 Institute For Information Industry Semantic analysis apparatus, method, and non-transitory computer readable storage medium thereof
CN113051932A (zh) * 2021-04-06 2021-06-29 合肥工业大学 语义和知识扩展主题模型的网络媒体事件的类别检测方法
CN112989792A (zh) * 2021-04-25 2021-06-18 中国人民解放军国防科技大学 事例检测方法和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宋晓雷;王素格;李红霞;李德玉;: "基于概率潜在语义分析的词汇情感倾向判别", 中文信息学报, no. 02 *
蔡肖红;刘培玉;王智昊;: "基于语境情感消岐的评论倾向性分析", 郑州大学学报(理学版), no. 02 *

Also Published As

Publication number Publication date
CN113836939B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN113836333A (zh) 图文匹配模型的训练方法、实现图文检索的方法、装置
CN114648638A (zh) 语义分割模型的训练方法、语义分割方法与装置
CN116028605B (zh) 逻辑表达式生成方法、模型训练方法、装置及介质
CN114612749A (zh) 神经网络模型训练方法及装置、电子设备和介质
CN114611532B (zh) 语言模型训练方法及装置、目标翻译错误检测方法及装置
CN114443989B (zh) 排序方法、排序模型的训练方法、装置、电子设备及介质
CN113642740A (zh) 模型训练方法及装置、电子设备和介质
CN115862031B (zh) 文本处理方法、神经网络的训练方法、装置和设备
CN115879469B (zh) 文本数据处理方法、模型训练方法、装置及介质
CN115269989B (zh) 对象推荐方法、装置、电子设备和存储介质
CN116152607A (zh) 目标检测方法、训练目标检测模型的方法及装置
CN115578501A (zh) 图像处理方法、装置、电子设备和存储介质
CN114118067A (zh) 术语名词纠错方法及装置、电子设备和介质
CN114429678A (zh) 模型训练方法及装置、电子设备和介质
CN113836939B (zh) 基于文本的数据分析方法和装置
CN112905743A (zh) 文本对象检测的方法、装置、电子设备和存储介质
CN114861658B (zh) 地址信息解析方法及装置、设备和介质
CN116070711B (zh) 数据处理方法、装置、电子设备和存储介质
CN114390366B (zh) 视频处理方法和装置
CN115578584B (zh) 图像处理方法、图像处理模型的构建和训练方法
CN115906762A (zh) 文本标注方法、装置、电子设备和存储介质
CN114611526A (zh) 实体链接方法及装置、设备和介质
CN114065737A (zh) 文本处理方法、装置、设备及介质
CN116361484A (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN117909235A (zh) 代码风险检测方法、深度学习模型的训练方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant