CN106104521A - 用于自动检测文本中的情感的系统、设备和方法 - Google Patents

用于自动检测文本中的情感的系统、设备和方法 Download PDF

Info

Publication number
CN106104521A
CN106104521A CN201580013261.XA CN201580013261A CN106104521A CN 106104521 A CN106104521 A CN 106104521A CN 201580013261 A CN201580013261 A CN 201580013261A CN 106104521 A CN106104521 A CN 106104521A
Authority
CN
China
Prior art keywords
text
svt
vector
emotion
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580013261.XA
Other languages
English (en)
Other versions
CN106104521B (zh
Inventor
K·瓦利亚
A·马莫诺维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cluep Inc
Original Assignee
G Lu Ipuh Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by G Lu Ipuh Co filed Critical G Lu Ipuh Co
Publication of CN106104521A publication Critical patent/CN106104521A/zh
Application granted granted Critical
Publication of CN106104521B publication Critical patent/CN106104521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

这里所描述的实施例总体上涉及内容分析技术和自然语言处理(NLP)。具体地,设备、系统和方法可以实施逆向句子重构(RSR)工具和句子矢量化技术(SVT)工具。计算机服务器可以被配置为接收具有文本数据要素的情感分类请求,并且作为响应,使用该RSR工具和SVT工具生成指示该文本数据要素的情感的情感分类响应。

Description

用于自动检测文本中的情感的系统、设备和方法
相关申请的交叉引用
本申请要求于2014年1月10日提交的美国临时专利申请号No.61/925942的权益,其全文内容通过引用结合于此。
技术领域
这里所描述的实施例总体上涉及内容分析技术。这里所描述的实施例进一步涉及自然语言处理(NLP)。
背景技术
在信息检索(IR)、自然语言处理(NLP)、机器学习、深度学习和统计建模等领域已经取得了进展。
语言的基本功能是协助通信。文字传达含义而且还提供有关社交过程的信息。我们在日常生活中所使用的文字反映出我们是谁以及我们所处的社交关系。语言是人们将他们的内心想法和情感转化为其他人所能够理解的形式的常见且可靠的方式。
包括使用社交网络平台的电子通信是常见的并且在互联网上生成了前所未有的内容。消费者已经将电子和社交媒体整合到他们的日常生活中并且通过诸如TWITTERTM或FACEBOOKTM、LINKEDINTM、YOUTUBETM、GOOGLE+TM、INSTAGRAMTM、PINTERESTTM的流行社交网络来表达他们的情感。社交媒体的广泛使用为到达消费者提供了机会,例如构建品牌或形成意见。
解释社交媒体内容的一个重要部分是能够以准确的方式确定文本之内的人类情感。特别地考虑到通过社交媒体所生成的内容的量,这会是一项艰巨的任务。
在包括社交网络、移动广告平台、在线广告平台、社交媒体监视、基于内容的广告、服务中心管理、声誉管理和保护、品牌管理、保险欺诈检测、金融通信平台、消费品行业中的品牌忠诚度、流行博客和消费者评论和/或讨论平台、垃圾邮件检测、文档和电子邮件分类、推荐系统、增销机会分析、可疑活动识别以及其他方面的各种领域存在着对于自动检测文本中的情感的系统、设备和方法的需求。
对文本数据进行人类情感分类是一种将人类情感标记为文本数据的串的过程。用以提供分析内容以检测人类情感并对其进行分类的计算机系统的已知方式可以使用来自信息检索(IR)、自然语言处理(NLP)、机器学习、统计建模和深度学习技术等领域的方式和方法。
例如,一种方式是使用分类的单词袋(bag-of-words)模型。该模型仅考虑短语中的单词并且通常涉及对文本主体中一般将会与情感相匹配的具体关键词进行搜索。单词在句子中的顺序通常始终都被忽略。例如,被编程为使用这种类型的模型来运行的分类器被给予句子“我这么恨你。”,并且可以被进一步编程为将文本分类为通常指示“愤怒”或“快乐”的情感。该分类器可能已经具有与“愤怒”或“快乐”相匹配的常见关键词的大型预处理数据库,并且可以被编程为针对任何匹配而运行句子检查。单词“恨”可能一般包含在与“愤怒”相关联数据记录集合中,并且因此在分类器针对文本主体检查每个单词的匹配时,其会得到与“恨”的匹配并且因此将该句子标记为“愤怒”。
然而,利用这样的现有技术的解决方案面临着挑战。例如,如果分类器再次被给予另一个句子“我曾经恨他们,但现在不是了”,其将由于该句子中具有单词恨而错误地将该句子标记为“愤怒”。类似地,如果涉及诸如“我恨你,不!”的否定形式,现有技术的分类器将错误地标记该句子。这样的方式可能的结果包括不太理想的准确性,无法检测出讽刺,无法解决更为复杂的句子结构,不能应对相同单词根据上下文可能具有不同含义的事实,以及其他缺陷。
需要用于确定文本中的人类情感的有所改进的设备、方法、系统和解决方案,其提供所期望的准确性,并且能够进行缩放以结合包括社交网络移动和在线广告平台或至少其替代形式的电子通信一起使用。
发明内容
在该方面,在对至少一个实施例进行详细解释之前,所要理解的是,发明主题的实施例在其应用方面并不局限于这里所提供或附图中图示的以下描述或示例中所给出的构造的细节以及组件部署。其他实施例能够以各种方式进行实践和实施。而且,所要理解的是,这里所采用的短语和术语是出于描述的目的而并不应当被视为限制。
在一个方面,这里所描述的实施例可以提供涉及至少一个客户端计算设备的系统和方法,该客户端计算设备执行应用以传送作为情感分类请求的文本数据要素的集合。该系统和方法进一步涉及至少一个计算机处理器,其通过通信网络与该至少一个计算设备进行通信以接收该情感分类请求,并且作为响应而传送情感分类响应,该计算机服务器配置文本分析引擎,用于确定该文本数据要素的集合的语法和语义结构的逆向句子重构(RSR)工具,以及用以生成句子矢量化技术(SVT)模型的SVT工具,其中该计算机服务器被配置为使用该RSR工具和SVT工具来计算该情感分类响应,其中该RSR工具与该SVT工具进行交互以提供解析组件以生成具有文本数据要素的句法文本树,并且提供分类组件以针对该情感分类响应而对该文本数据要素的情感进行分类。至少一个数据存储设备存储该SVT模型、标记文本语料库以及俚语和拼写词典。
附图说明
在考虑以下对其的详细描述时,这里所描述的实施例可以更好地被理解并且其目标会变得显而易见。这样的描述参考附图来进行,其中:
图1描绘了根据实施例的计算机系统所实施的用于使用逆向句子重构技术(RSR)确定文本中的情感的方法的概述。
图2更为详细地示出了根据实施例的RSR方法所进行的预处理的步骤。
图3更为详细地示出了根据实施例的RSR方法所进行的解析的步骤。
图4更为详细地示出了根据实施例的RSR方法所进行的分类的步骤。
图5描绘了根据实施例的用于句子矢量化技术(SVT)的计算机系统所实施的方法的概述。
图6更为详细地示出了根据实施例的SVT方法所进行的预训练的步骤。
图7更为详细地示出了根据实施例的SVT方法所进行的训练的步骤。
图8更为详细地示出了根据实施例的SVT方法所进行的增强的步骤。
图9图示了计算机系统示图,其示出了根据实施例的网络实施的计算机平台的可能实施方式;
图10描绘了根据实施例的用于执行用于确定文本中的情感的方法的计算机系统;
图11图示了另一个示例系统示图,其示出了根据实施例的网络实施的计算机平台的可能实施方式;
图12图示了提供用于定义广告应用的活动设置的用户界面的显示屏;
图13图示了提供用于定义广告应用的活动目标的用户界面的显示屏;
图14至16图示了提供用于定义广告应用的目标列表的用户界面的显示屏;
图17图示了提供用于管理广告应用的广告的用户界面的显示屏;
图18图示了提供用于定义广告活动的预算的用户界面的显示屏;
图19图示了提供用于回顾并启动广告应用的活动的用户界面的显示屏;
图20和21图示了提供用于广告应用的活动仪表盘的另一个用户界面的显示屏;
图22至26图示了根据实施例的解析的示例;
图27至30图示了根据实施例的分类的示例;
图31图示了根据实施例的具有不同权重的树的示例。
在附图中利用示例对实施例进行图示。所要明确理解的是,描述和附图仅是出于图示的目的并且作为理解的辅助,而并非作为发明限制的限定。
具体实施方式
这里所描述的系统和方法的实施例可以以硬件或软件或者二者的组合来实施。这些实施例可以以在可编程计算机上执行的计算机程序来实施,每个计算机包括至少一个处理器、数据存储系统(包括易失性存储器或非易失性存储器或其他数据存储部件或者它们的组合),以及至少一个通信接口。作为示例而非限制,各个可编程计算机可以是服务器、网络电器、机顶盒、嵌入式设备、计算机扩展模块、个人计算机、膝上计算机、个人数据助理、蜂窝电话、智能电话设备、UMPC平板计算机和无线超媒体设备,或者能够被配置为执行这里所描述的方法的任意其他计算设备。
程序代码被应用以输入数据以执行这里所描述的功能并且生成输出信息。该输出信息以已知方式而被应用于一个或多个输出设备。在一些实施例中,该通信接口可以是网络通信接口。在其中本发明的部件被组合的实施例中,该通信接口可以是软件通信接口,诸如用于进程间通信的那些接口。在其他实施例中,可以存在被实施为硬件、软件以及它们的组合的通信接口的组合。
每个程序可以以高级过程或面向对象的编程或脚本语言或者它们的组合来实施以与计算机系统通信。然而,可替换地,程序可以在期望的情况下以汇编或机器语言来实施。语言可以是经编译或解释的语言。每种这样的计算机语言都可以被存储在存储介质或设备(例如,ROM、磁盘、光学盘)上,存储介质或设备能够被通用或专用可编程计算机进行读取,以便在存储介质或设备被计算机所读取时配置和操作该计算机以执行这里所描述的过程。系统的实施例也可以被认为被实施为利用计算机程序进行配置的非瞬态的计算机可读存储介质,其中被这样配置的存储介质使得计算机以具体和预定方式进行操作以执行这里所描述的功能。
此外,所描述实施例的系统和方法能够在计算机程序产品中进行分布,计算机程序产品包括承载用于一个或多个处理器的计算机可用指令的物理、非瞬态的计算机可读介质。该介质可以以各种方式来提供,包括一个或多个软盘、光盘、磁带、芯片、磁性和电子存储介质、易失性存储器、非易失性存储器等。非瞬态的计算机可读介质可以包括所有的计算机可读介质,其例外是瞬态的传播信号。术语非瞬态并非意在排除存储于其上的数据仅可以是被临时存储的诸如主存储器、易失性存储器、RAM等的计算机可读介质。计算机可用指令也可以是各种形式,包括编译和非编译代码。
贯穿以下讨论,将关于从计算设备所形成的服务器、服务、接口、门户、平台或其他系统进行多种参考。应当意识到的是,这样的术语的使用是被认为表示具有至少一个处理器的一个或多个计算设备,上述处理器被配置为执行存储在计算机可读的有形、非瞬态介质上的软件指令。例如,服务器能够包括作为web服务器、数据库服务器、或者以实现所描述的角色、职责或功能的方式的其他类型的计算机服务器进行操作的一个或多个计算机。应当进一步意识到的是,所公开的基于计算机的算法、处理、方法或其他类型的指令集能够被实现为包括存储指令的非瞬态的有形计算机可读介质的计算机程序产品,上述指令使得处理器执行所公开的步骤。应当意识到的是,这里所描述的系统和方法可以将在接收器所接收到的文本数据自动变换为经分类的情感以便经由传送器或其他输出设备进行传输。
以下讨论提供了本发明主题的许多示例实施例。虽然每个实施例表示了发明要素的单一组合,但是该发明主题被认为包括所公开要素的所有可能组合。因此,如果一个实施例包括要素A、B和C,并且第二实施例包括要素B和D,则该发明主题还被认为包括A、B、C或D的其他其余组合,即使其并未被明确公开。
如这里所使用的,除非上下文另外有所指示,否则术语“耦合至”意在包括直接耦合(其中两个互相耦合的部件互相接触)和间接耦合(其中至少一个另外的部件位于两个部件之间)。因此,术语“耦合至”和“与…耦合”以同义方式被使用。
在各个方面,本公开提供了使得能够确定文本中的情感的计算机系统或技术平台(可以被称之为“平台”)。该平台实施一系列新颖且具创新性的方式来确定文本数据要素的集合中的情感。
在这里所描述的实施例的一个方面,该平台包括被特别配置为提供文本分析引擎(14)的硬件,上述文本分析引擎在被执行时通过提取并管理句子的语法要素和语义以及文本数据中的单词/短语之间的关联而(基于多个情感分类集合)准确地对文本数据进行分类。
这里所描述的实施例由物理计算机硬件所实施。例如,这里所描述的实施例提供了有用的物理机器以及计算设备、服务器、电子游戏终端、处理器、存储器、网络的经特别配置的计算机硬件部署。这里所描述的实施例例如针对计算机装置以及计算机通过对电子数据信号的处理所实施的方法。
这里所描述的实施例涉及被特别配置为实施各种动作的计算设备、服务器、文本处理引擎、接收器、传送器、处理器、存储器、显示器、网络。这里所描述的实施例针对被适配用于处理和变换表示各种类型的信息的电磁信号的电子机器。这里所描述的实施例普遍且总体地涉及机器以及它们的使用;并且这里所描述的实施例在并不利用计算机硬件、机器、各种硬件组件的情况下并无意义或实际应用应用性。
例如使用脑力步骤来替代被特别配置为实施针对非物理硬件的各种动作的计算设备、服务器、文本处理引擎、接收器、传送器、处理器、存储器、显示器、网络会实质性地影响到实施例工作的方式。
这样的计算机硬件的限制明显是这里所描述实施例的必要要素,并且它们无法在对于这里所描述实施例的操作和结构没有具体影响的情况下被省略或替代为脑力手段。计算机硬件对于这里所描述的实施例是必要的而并非仅被用来快速地且以有效的方式来执行步骤。
现在参考图9和11,示出了根据一些实施例的计算机系统的实施方式。
如图11所示的计算机系统可以由服务器处理器(1100)来实施,其还可以由服务器群组或云计算服务来实施。服务器处理器(1100)可以使用一个或多个处理器来实施并且耦合至被配置为具有(多个)数据库或(多个)文件系统的一个或多个数据存储设备1108,或者使用在广泛地理区域分布并且经由网络进行连接的多个设备或存储设备1108的多个群组(它们也可以被称之为“云计算”)来实施。
服务器处理器(1100)可以处于任何联网的计算设备上,诸如专用硬件服务器、个人计算机、工作站、服务器、便携式计算机、移动设备、个人数字助理、膝上计算机、平板计算机、智能电话、WAP电话、交互式电视机、视频显示终端、游戏机、电子阅读设备,以及便携式电子设备或者这些的组合。
服务器处理器(1100)可以是任意类型的处理器,作为示例,诸如任意类型的通用微处理器或微控制器、数字信号处理(DSP)处理器、集成电路、现场可编程门阵列(FPGA)、可重新配置的处理器、可编程只读存储器(PROM),或者它们的任意组合。服务器处理器(1100)可以包括位于内部或外部的任意类型的计算机存储器,作为示例,诸如随机访问存储器(RAM)、只读存储器(ROM)、光盘只读存储器(CDROM)、电光学存储器、磁光学存储器、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、铁电RAM(FRAM)等。
服务器处理器(1100)可以连接至一个或多个输入设备,诸如键盘、鼠标、相机、触摸屏和麦克风,并且还可以包括一个或多个输出设备,诸如显示屏和扬声器。服务器处理器(1100)具有网络接口以便与其他组件进行通信,访问并连接至网络资源,服务应用和其他应用,并且通过连接至能够承载数据的网络914(或多个网络)而执行其他计算应用,上述网络包括互联网、以太网、普通老式电话服务(POTS)线路、公共交换电话网(PSTN)、集成服务数字网络(ISDN)、数字订户线路(DSL)、同轴线缆、光纤、卫星、移动、无线(例如,WiFi、WiMAX)、SS7信令网络、固话线路、局域网、广域网等,包括这些的任意组合。可以有跨地理区域进行分布并且经由网络连接的多于一个的服务器处理器(1100)。
服务器处理器(1100)可以链接至服务器应用(1102),服务器应用(1102)也可以被实施为数据存储设备上的应用仓库。服务器应用(1102)提供了对服务器处理器(1100)中包括文本分析引擎(906)之类的组件的接口,如图9和11所示,上述组件能够被实施为执行这里所描述的实施例的多个方面的功能的一系列模块。服务器处理器(1100)进一步对RSR工具(914)和SVT工具(908)进行配置。图9单独图示了组件,它们可以由相同处理器或不同的连接的处理器来实施。
一系列客户端设备(1106)可以连接至服务器处理器(1100)以便访问定义这里所描述实施例的情感分析特征的电子数据信号。客户端设备(1106)可以使用一个或多个处理器以及被配置为具有(多个)数据库或(多个)文件系统的一个或多个数据存储设备来实施。客户端设备(1106)存储并执行客户端应用(902),上述客户端应用(902)经由应用编程接口(API)请求而与服务器处理器(1100)进行对接。
这些客户端设备(1106)可以是网络连接的设备,诸如台式计算机、个人计算机、工作站、服务器、便携式计算机、移动设备、个人数字助理、膝上计算机、平板设备、智能电话、WAP电话、交互式电视机、视频显示终端、游戏机、电子阅读设备、便携式电子设备或者这些的组合,或者具有网络连接的其他计算设备。客户端设备(1106)也可以是第三方计算机网络服务,诸如采用服务器处理器(1100)的情感分析服务的社交网络平台。
客户端设备(1106)可以包括至少一个处理器,作为示例,诸如任意类型的通用微处理器或微控制器、数字信号处理(DSP)处理器、集成电路、现场可编程门阵列(FPGA)、可重新配置的处理器、可编程只读存储器(PROM),或者它们的任意组合。客户端设备(1106)可以包括位于内部或外部的任意类型的计算机存储器,作为示例,诸如随机访问存储器(RAM)、只读存储器(ROM)、光盘只读存储器(CDROM)、电光学存储器、磁光学存储器、可擦除可编程只读存储器(EPROM)和电可擦除可编程只读存储器(EEPROM)、铁电RAM(FRAM)等。
客户端设备(1106)可以包括一个或多个输入设备,诸如键盘、鼠标、相机、触摸屏和麦克风,并且还可以包括一个或多个输出设备,诸如显示屏和扬声器。客户端设备(1106)具有网络接口以便与其他组件进行通信,访问并连接至网络资源,服务应用和其他应用,并且通过连接至能够承载数据的网络(或多个网络)而执行其他计算应用,上述网络包括互联网、以太网、普通老式电话服务(POTS)线路、公共交换电话网(PSTN)、集成服务数字网络(ISDN)、数字订户线路(DSL)、同轴线缆、光纤、卫星、移动、无线(例如,WiFi、WiMAX)、SS7信令网络、固话线路、局域网、广域网等,包括这些的任意组合。可以有跨地理区域进行分布并且经由网络连接的多于一个的客户端设备(1106)。客户端设备(1106)能够进行操作以在提供对应用、局域网、网络资源、其他网络和网络安全设备的访问之前注册和认证用户(例如,使用登录、唯一标识符和密码)。客户端设备(1106)可以是不同类型的设备并且可以为一个用户或多个用户进行服务。
可替换地,服务器处理器(1100)可以被形成为现有社交网络平台的一部分。各种其他配置可能用于对这里所描述实施例的情感分析功能提供访问。
在一种可能实施方式中,数据存储设备(1108)链接至计算机系统。例如,数据存储设备(1108)可以持久地存储定义SVT模型912、标记文本语料库916和俚语/拼写词典910的电子数据信号。
处于客户端设备(1106)的客户端应用(902)可以向服务器处理器(1100)传送作为文本数据的情感分类请求。服务器处理器(1100)可以对文本数据进行处理以检测并分类与该文本数据相关联的情感,并且基于所处理的文本数据生成情感分类响应。这些情感例如可以包括以下情感而并不局限于此:快乐、悲伤、疲惫、很好、很棒、恼怒、激动、抱歉、害怕、热爱、美妙、特别、厌恶、不错、太好了、不好、更好、负罪、愉悦、低落、希望、孤单、愤怒、安全、孤独、祝福、自由、好奇、失落、老了、激怒、懒惰、更差、恐怖、舒适、傻、确定、性感、羞愧、新鲜或中性。这些是在系统的示例实施方式中所使用的任意的、说明性的、示例的情感列表。可以选择其他情感。情感可以被记录为形成情感记录的一部分的电子数据信号,该情感记录被数据存储设备(1108)持久性地保存为各种数据结构,包括标记文本语料库916。
标记文本语料库916是定义或表达每个树节点的情感和词类的标记句法文本树的大型集合。
句法文本树提供了对RSF和SVT处理中所使用的文本特征进行表示以协助快速情感表达的有效方式。句法文本树定义了特征类型,特征类型包括单并不局限于简单短语、表情符号、词类标签或依赖性关联。数据存储设备可以将句法文本树存储为二进制数据以便能够使用计算机的存储器组件中的最小空间并且将其存储为文本数据以节省存储器空间。句法文本树可以链接文本数据要素,诸如映射至特定情感的单词或短语。例如,句法文本树可以随着更多文本数据被解析和分类而随时间被自动更新。如这里所解释的,文本数据要素的集合例如可以包括句子和短语,并且其派生物可以在其被处理和分析之后被存储为句法文本树。
根据一些实施例,相同的句子可以映射至多于一种的情感。在一种示例实施方式中,可以针对每种情感定义一系列表格;该表格可以包含文本数据要素的链接群组。该表格可以在持久性数据存储被存储为数据结构以便后续参考、修改和检索。这些表格可以随时间更新以更好地对更多文本数据大小进行调整,并且反映出对所存储数据的修改。而且,句法文本树可以定义诸如句子的文本数据要素群组内的依赖性,可以被映射和链接。
更为一般的情感分类的示例可以是中性。更为一般的情感分类可以结合这里所描述的其他更为具体的情感分类一起使用以便进一步提高准确性,并且还在文本数据并未以充分确定性映射至任一个更为特定的分类的情况下用作缺省分类。其可以给予分类器在无法以充分的置信度水平检测到更为具体的情感的情况下确定一般情感的能力。其另一种用途可以是使得能够验证更为一般的情感分类的置信度。例如,如果在文本数据中存在更为一般的情感,则更多相对应的具体情感的存在概率也会有所增加。对不同情感粒度水平进行置信度检查可以提高分类的准确性。
这里所描述的实施例提供了一种可缩放的系统,其能够通过使用特别配置的可缩放计算机平台自动地正确解析文本数据要素并将其分类为整体覆盖可能情感选项的广泛范围的相对大的情感集合而更为准确地对与文本数据要素相关联的一种或多种情感进行分类。这里所描述的实施例因此可能准确返回表达文本数据要素的实体的预期情感。另外,词类和句法文本树结构也得以被分类。
在这里所描述的实施例的一个方面,该计算机系统可以被特别配置为具有控制逻辑来以组合方式实施用以根据文本数据要素确定情感分类响应的两种技术,即RSR和SVT。如这里进一步详细描述的,文本分析引擎(906)可以执行RSR工具914和SVT工具908。每一种技术,即RSR和SVT,都可以在多种应用中被使用。
这里所描述的实施例所采用的方式可以是在考虑到相同单词例如可以映射至多种感情的情况下而确定单词或短语的集合的主导情感。文本分析引擎(906)可以使用句法文本树矢量中的激励函数针对不同单词和短语计算置信度得分以确定主导情感。根据一些实施例,文本分析引擎(906)以自下向上方式使用文本的相关语义树的RSR的SVT数据结构表示,上述自下向上方式是从包括个体单词的最低语义表示,到所存在短语的语义表示,再到整个文本的语义表示。矢量的数据结构表示可以被持久地存储为数据存储设备以便由文本分析引擎(906)进行参考。SVT矢量表示使用电子数据信号来定义一系列连接的单词/短语矢量,上述一系列连接的单词/短语矢量均以类似于语义文本树的路径的方式进行连接,其中每个矢量根据它们在树中的语义值而被给定以它们自己的值。单词/短语矢量被表示为数据信号的阵列,以及用作电子计算单元,上述电子计算单元接收输入并且基于控制逻辑实施处理,以例如对要被用来通过控制逻辑所编程的激励函数(例如,逻辑函数)计算输出值的每个输入的相应矢量值的乘积进行相加。该激励函数是针对所给出的任何输入值输出0和1之间的值的数学函数。该矢量表达树中的所有节点。这些矢量值被用来计算其输出至下一个矢量的值以及其当前所处的情感。如果矢量处于顶部节点,则其仅确定情感。正向传播处理涉及计算和传递由激励函数根据从树的开端开始直到其结束的、连续的网络中的每个连接的矢量的学习值以数学方式所确定的值。这样的函数的这种示例是双曲函数。该激励函数取得矢量的矢量值以及从之前矢量所获得的值。在矢量处于树的底部并且仅表达一个单词的情况下,该值由该矢量所表达的个体单词所定义。该激励通过分别对矢量值的乘积进行相加而定义,其随后可以被送至双曲函数之中。具有最高激励的类型被指定为该特定节点的情感。
根据一些实施例,每个矢量的矢量值被表示为范围从-1到1的数学矢量,其具有跨所有矢量都相同的任意长度。该矢量值在训练处理期间被事先优化。该训练处理利用监督式学习改变或修改矢量值,其中网络被给予标记文本语料库的大型集合并且对每个矢量值进行逐个的小幅改变以便能够尽可能接近地匹配标记文本语料库的输出。该标记文本语料库(例如,标记文本语料库916)包括解析句子树的大型集合,其在每个节点通过其相应情感进行标记。这些节点中的每一个的标记例如可以通过在由情感单独标记的原始文本的大型集合中存在的该节点的短语的最高频率出现所自动确定。可以通过使用最终激励函数而针对每个分类确定置信度得分,该最终激励函数描述了其下方的整个文本数据的情感。一旦完成,从树的底部开始到顶部的所有节点都利用准确情感进行了准确标记。
现在参考图1,示出了这里所描述的实施例的一种可能实施方式中的用于确定文本数据要素的集合中的情感的计算机所实施的方法。如图1所示,可以获得文本数据要素或文本数据的集合,并且在102,计算机平台可以使用编程控制逻辑执行预处理技术。计算机平台可以包括接收器以接收文本数据。计算机平台可以实施图1的步骤以将所接收到的文本数据(作为情感分类请求的一部分)变换为经分类的情感(作为情感分类响应的一部分)。
在104,计算机平台可以执行解析以评估文本中的语义模式,诸如词类标签、单词布置以及单词是否处于句子的开头、中间或结尾,描述单词与句子中的其他单词的依赖性关联的依赖性布置,和/或甚至具体单词符号的存在,其例如包括表情符号和感情表达。
在106,计算机平台可以执行分类以针对文本数据分类特定情感。标记文本语料库916可以利用这些文本数据要素以及相关联的单词含义进行更新以便丰富数据集合。这提供了未来在更多情感记录树形结构的持续增加的情况下利用RSR和SVT进行的文本映射可以更好地适配用于处理相似类型的文本的快速评估的优势。
如以下所描述的,RSR和SVT使得能够进行文本数据要素的完整语义解构和分析,并且最终对情感记录进行自动更新以供未来使用。接收相同或几乎相同的后续文本数据要素可以允许有效的情感确定。实际上,该计算机平台的设计促进了其可缩放性和效率。计算机平台被配置并设计为实施深度学习方面,其以迭代方式增强了该平台对文本数据进行准确、有效且快速的分析的能力。
还注意到,RSR和SVT都被设计为使得能够快速分析并生成结果。RSR尤其可以极快地执行,因此提供有效的可缩放解决方案,同时提供了远超过使用现有技术解决方案所可能达到的准确性的准确性。
使用SVT工具908,本发明的文本分析引擎(906)随时间推移而构建了相对完整的情感记录的集合以及相关联的文本数据要素。
在108,计算机平台针对所获得的文本数据返回经分类的情感而作为情感分类响应。该计算机平台可以包括传送器以向外部系统或其他组件传送该数据。因此,计算机平台使用SVT和RSR技术将所接收到的文本数据自动变换为经分类的情感数据。
在一种可能的实施方式中,服务器应用(1102)包括应用编程接口(API),上述应用编程接口(API)被配置为使得外部用户能够(通过他们的客户端设备(1106))及其应用(902)能够连接至服务器处理器(1100)所实施的计算机网络服务。该API被用来以例如JSON或XML的一种或多种格式向计算机系统提供文本数据要素。该API可以通过与API服务器建立端对端连接并且提供HTTP请求而进行访问。文本分析引擎(906)执行一系列例行程序,其包括基于RSR和SVT的例行程序,以基于情感对文本数据进行分类,并且实时或接近实时地向外部用户及其应用返回情感评估结果(例如,情感分类响应)。这些结果可以为可以由客户端设备(1106)或相关联应用所指定的格式。
应用的角色是使得第三方或内部用户能够经由API请求而从文本分析引擎对文本数据进行分类。后端服务器处理器(110)则用来运行、处理文本数据并且存储文本分析引擎所需的数据。
在一个可能方面,文本分析引擎(906)能够进行操作以对诸如句子、段落、文章或其他文档的任意方式的文本输入进行分析。
在一种可能实施方式中,数据存储设备(1108)包括针对每种情感分类的情感记录,并且多个单词要素可以被映射至每个这样的情感记录。值得注意的是,相同的单词可以与多于一个的情感记录相关。
例如,单词“sick”能够表达至少两种可能的情感。首先,在“My friend is sick.(我的朋友病了。)”中,单词“sick(病了)”可以与感情“悲伤”相关联。然而,在俚语中,单词“sick(渴望)”也表达情感“热爱”。作为另一个说明示例,单词“unreal(不是真实的)”能够以正面和负面情感进行表达。在句子“dam!That killing spree in COD was unreal man!(该死!COD里的那个杀人狂魔不是真实的人!)”中具有正面的“快乐”情感,而在“Thisnokia phone is so awful it’s unreal(这个诺基亚手机如此可怕,这不是真实的)”中则为负面情感“悲伤”。作为另外的说明示例,除其他之外,单词“special(特殊)”能够以正面和负面情感进行表达。例如,其可以在“Yes!I got the first PS4,I feel special!(是!我得到第一个PS4,我感觉特别!)”中以情感“热爱”正面表达,并且在“Obama falls intothat special group of people that don’t understand what a failure theaffordable healthcare act is(奥巴马属于不明白可负担医疗法案如何失败的特殊的一群人)”中以情感“愤怒”负面表达。在另一个示例中,单词“silly(愚蠢)”能够以正面和负面情感进行表达。在“My boyfriend acts so silly around me it’s adorable(我男朋友在我周围表现得这么愚蠢,这真可爱)”中以情感“热爱”正面表达,并且在“Okay,let’s notmake any more silly decisions about investing more in bitcoins in this bullmarket(好吧,让我们不要做出关于在这个牛市中投资更多的比特币的更多愚蠢决定)”中以情感“害怕”负面表达。
在这里所描述的实施例的一个方面,RSR工具包括分类器或分类组件。
在一种特定实施方式中,可以向每个情感记录指定以数字。例如在句子的情况下,单词要素可以被映射至两个或更多的相关联情感记录,并且该句子随后可以基于相关联情感记录的数量而作为一系列数字。这些数字的串使得能够进行模式的识别。
分析工具可以被整合到文本分析引擎(906)中,上述分析工具对文本分析引擎(906)的操作进行追踪并且自动生成趋势数据并且可以基于规则集合而对文本数据要素到情感记录的映射作出更正性改变。该分析工具可以被配置为具有控制逻辑以随时间实施自适应学习。规则集合可以包括文本数据要素到其他分类记录的映射的重新分布。该重新分布在映射适配其他分类记录的情况下可以利用在分析文本中的多种情形之后显示出这样做的理由的统计模型来完成。
例如,由于单词“sick”可以在包括正面和负面的多种语境中使用,所以计算机平台所实施的RSR和SVT技术可以使得该平台能够对此进行自动识别,因为其通过确认随时间所处理的在其中包含有单词“sick”的文本中是正确的而进行学习。随着所处理的文本量随时间增长,分析工具可以在更多情形中对其进行挑选或对其加以识别。语义文本树的结构可以挑选或识别多种语境。
在所描述实施例的另一个方面,分析工具可以被配置为具有控制逻辑以对情感确定针对其可能有所模糊的文本数据要素的集合做出标志。这些标志可以被呈现给辅助计算机系统操作的计算机系统用户。计算机系统可以包括用于管理相关联工作流的各种工具。此外,众包平台可以链接至该计算机系统以利用用户池的资源以准确映射与文本数据要素相关联的情感。
RSR技术—预处理
在这里所描述实施例的一个方面,RSR工具(914)可以实施一系列操作以便对文本数据要素进行预处理(例如,图1的步骤102),如图2中详细所示。
在这里所描述实施例的一个方面,RSR工具(914)通过以下而实施一个或多个例行程序以便对文本数据要素的集合进行预处理:转换多种语言(在202),切换出不常见的俚语术语(在204),修正文本数据要素的集合中偶然出现的拼写错误(在206),并且去除任何不想要的句子标定形式或异常形式(在208)。这些仅是说明示例。
RSR工具(914)实施预处理以将表示一个或多个短语或句子的文本要素的集合转换为作为输出的经预处理的文本串(例如,字符的字节表示)。
如图2所示,在202,RSR工具(914)执行多语言处理器(MLP)。
为了支持来自其他语言的文本的分类而并不要求特定于语言的解析器,RSR工具(914)执行MLP。MLP的目标是将特定于语言的文本转换为英语文本(或其他标准语言)同时尽可能保持原始语义。MLP可以如下进行工作:特定于语言的文本可以剔除其散列标签、别名和非标定形式。文本翻译器可以将文本翻译为英语(或其他标准语言)并且将其作为串返回。文本翻译器例如可以被实施为RESTFUL API或离线软件应用。散列标签和别名被附加回翻译为英语的文本并且就像其原本就是英语那样被发送至解析器。该输出可以是文本串。
在204,RSR工具(914)执行俚语词典匹配器(SDM)。
俚语和简短形式的单词在社交媒体语境中可能是常见的。RSR工具(914)执行SDM作为基于词典的过滤器以对单词进行规格化。几个示例包括‘Thnks’->‘thanks(谢谢)’、‘tyty’->‘thank you thank you(谢谢你谢谢你)’、‘2much’->‘too much(太多)’。SDM通过对在互联网文本中常见地找到的俚语和简短形式的单词的大型集合或集群进行存储并且将其匹配至其应正式映射到的正确单词而进行工作。这以与词典将单词映射至其定义在相同意义上进行工作。描述一种示例的SDM处理。给定文本串,该文本可以通过每个单词而被符号化。每个单词可以与常见俚语单词的预先填充词典列表进行交叉检查。如果找到单词的匹配,则该单词可以被替换为正确单词。单词的符号化列表可以被转换回文本串。
在206,RSR工具(914)执行文本拼写调整器(TSA)。
错误拼写的单词在社交媒体语境中会很常见。例如,‘wroking tonigth ughh’应当被解释为‘working tonight ughh(今晚工作,呃)’。RSR工具(914)执行TSA,TSA包括拼写检查器和拼写修正器。拼写检查器运行通过文本中的单词并且使用拼写修正器更正所存在的任何错误拼写的单词。描述一种示例的TSA处理。给定文本串,该文本通过每个单词而被符号化。拼写检查器针对任何拼写错误而评估每个单词。拼写检查器通过将每个单词与正确拼写的单词的已知列表进行交叉检查。针对任何错误拼写的单词,拼写修正器可以使用基于NLP的算法来检查错误拼写是否是由于复数、动词形式或根词。其在需要的情况下进行任意更正。经更正的单词列表被转换回文本串。
在208,RSR工具(914)执行文本规格化处理器(TNP)。
RSR工具(914)执行TNP作为对在诸如SMS和社交媒体的非正式文本中常见地找到的不常见和不需要的句子异常形式进行规格化的技术和方法的集合。TNP包括重复单词停止器(例如,‘slooooow down’->‘slow down(慢下来)’)、表情符号匹配器(例如,:),:D->‘em_pos’)和重复短语匹配器(例如,‘lolololol’->‘lol’,‘hehehehehe’->‘hehe’)。这些方法可以被RSR工具(914)利用我们所编程的搜索规则而实施为搜索匹配。描述一种示例的TNP处理。给定文本串,该文本被作为输入馈送到TNP。使用正则表达软件,按照TNP的搜索规则针对句子异常形式而扫描该文本。如果发现了句子异常形式,则利用正确形式替代该异常。经编辑的文本作为串被输出。
所不想要的句子异常形式可以涉及所分类文档的类型,例如对被标记为来自Twitter的推文的数据进行解析。在推文中,@别名在推文的情感评估中提供的帮助很少,以@别名可以被替代为常见的占位符,诸如人员标识符。更多预处理步骤包括但并不局限于去除单词中所存在的多个重复字符,诸如‘hungryyyyyyyy’变为‘hungry’以及‘tastyyyy’变为‘tasty’,去除要以简单含义进行表达的重复符号,诸如‘hahahahaha’变为‘ha’或者‘lolololol’变为‘lol’,以及对单词进行强调的情形,诸如‘hateeee’、‘soooo’等。这些不想要的句子标定形式可以如所描述的被去除。RSR工具(904)可以检测文本数据要素的集合所表示的文档类型以辅助预处理。该预处理方面改善了分类组件理解文本数据要素的所接受含义的能力。该预处理组件的实施方式可以通过应用预定义的计算搜索模式来构建,诸如应用搜索和替换规则以编辑去除重复字符和符号的正则表达形式,结合确定编辑距离的使用以修正常见拼写错误的拼写更正算法,结合被用来修正所不想要的句子异常形式的n-gram概率的概率模型,以及索引文本中的常见俚语单词并且将其替换为正确单词(诸如‘ur’变为‘your’)的俚语至正确单词的映射的数据库。所描述的处理被构建为共同并行工作以以最为有效且高效的方式将问题作为整体加以解决,而不是每个处理单独地且以串行顺序对其进行解决。
RSR技术—解析
RSR工具(904)被配置为具有解析组件以从经预处理的文本数据(例如,图1在104)生成句法文本树。该句法文本树的每个节点被标记以其相对应的词类。图3提供了解析进一步的细节。
RSR工具(904)对解析组件进行配置以使用通过关于SVT工具(908)所描述的技术进行训练的解析SVT模型而将文本串转换为句法文本树。句法文本树定义句子或短语中的单词之间的语法关联。该句法文本树将词类指定至文本数据要素的每个单词或短语矢量。
在302,针对经预处理的文本数据要素中的每个单词,RSR工具(904)的解析组件从SVT工具(908)的解析SVT模型(存储在数据存储设备1108中)获得单词矢量。也就是说,给定文本串,针对每个单词的相对应单词矢量从解析SVT模型获得。图22图示了示例文本串“This burger was amazing!(这个汉堡是惊人的!)”。如所示出的,解析组件从解析SVT模型获得五个单词矢量。
针对每个单词矢量,在304,RSR工具(904)的解析组件计算解析组合矩阵。图23图示了使用来自示例文本串“This burger was amazing!(这个汉堡是惊人的!)”的五个单词矢量的示例。
该解析组合矩阵可以在如这里所描述的解析SVT模型的预训练步骤的期间被创建。例如,该解析组合矩阵可以是具有大小d×2d的矩阵,其中“d”是单词矢量的长度。值在训练步骤的期间被重新配置。该解析组合矩阵的函数是用于在解析步骤中创建新的短语矢量。
在306,解析组件从解析组合矩阵获得短语矢量,并且在308,使用解析概率矢量计算短语矢量的概率。
以从左至右的方式,每个单词矢量可以与相邻单词的单词矢量进行组合。使用在解析SVT模型中所找到的解析组合矩阵,每个单词配对能够组合得如何的概率得以被计算并记录。该概率通过来自SVT模型的解析概率矢量而计算。
使用“矩阵相乘”的运算,解析组件可以将单词/短语矢量配对与SVT解析组合矩阵进行相乘以生成新的短语矢量。矩阵相乘是取得矩阵配对并且产生新的矩阵的二进制运算。该解析组件随后进行处理以将逻辑函数应用于新矢量的每个值。为了针对新的相位矢量生成概率,该解析组件可以使用解析概率矢量对相位矢量值进行相乘和求和。逻辑函数表达了0和1之间的值。
示例的逻辑函数包括Softmas和Tanh。
Softmax:
σ ( z ) j = e z j Σ k = 1 K e z k
Tanh:
tanh x = sinh x cosh x = e x - e - x e x + e - x = e 2 x - 1 e 2 x + 1 = 1 - e - 2 x 1 + e - 2 x
图24图示了针对“This burger(这个汉堡)”的示例短语矢量,其从针对“This(这个)”和“burger(汉堡)”的单词矢量的组合所产生。具有最高概率的单词配对通过将父节点附加至两个单词的节点而进行组合。短语矢量从该组合产生。该短语矢量以与单词矢量表示单词相同的方式来表示产生的新的短语。
在310,该解析组件确定是否还有其余的来自302的单词矢量,并且如果是,则针对所有单词矢量重复处理304、306和308直至整个句法树结构都被生成。解析组件可以在计算步骤中将产生的每个新的词组矢量视为单词矢量。图25图示了词组矢量的示例。
在312,解析组件计算词类矩阵。在314,解析组件获得置信度得分。在316,解析组件确定该置信度得分是否高于输出用于分类的句法文本树的阈值。如果是,则输出其中每个节点被标记以其相对应的词类的完整句法文本树。如果否,则解析组件触发如关于图5所描述的由SVT工具(908)所进行的增强。
图26图示了用于通过组合单词矢量“This(这个)”和单词矢量“burger(汉堡)”而针对短语矢量“This burger(这个汉堡)”的置信度得分计算的示图。
针对每个节点的词类通过使用在(数据存储设备1108的)解析SVT模型中所找到的词类矩阵进行指定。置信度得分通过词类矩阵和单词/短语矢量的计算而生成。置信度得分是表示每个词类能够有多可能表示节点的概率的值的列表。具有最高概率的词类被指定给该节点。为了生成置信度得分,一旦从词类矩阵和短语矢量计算了新的矢量,逻辑函数就可以被应用于每个值并且可以通过将该值除以所有值之和而被转换为概率。逻辑函数表达0和1之间的值。
词类的说明性和非限制性的示例可以包括:
OWC(开放单词分类)
CWC(闭合单词分类)
PC(短语分类)
作为用于将词类指定至每个节点的处理的说明性示例,考虑以下的文本要素或串:“I enjoyed my nice warm coffee after walking with her.(在跟她散步之后,我很享受我美好暖和的咖啡)”
句法文本树的针对单词矢量的节点可以如下被指定词类和置信度得分。
I->代词->0.74
Enjoyed->动词->0.87
My->代词->0.59
Nice->形容词->0.76
Warm->形容词->0.88
Coffee->名词->0.91
After->连词->0.75
Walking->动词->0.98
With->介词->0.68
Her->代词->0.61
针对短语矢量的节点可以如下被指定以词类和置信度得分:
Nice warm coffee->名词短语->0.69
Walking with her->动词短语->0.81
作为用于将词类指定至每个节点的处理的另一个说明性示例,考虑以下的文本数据要素或串:“This#iPhone app was awful.Never again.(这个#iPhone应用太可怕了。再也不要。)”
句法文本树的针对单词矢量的节点可以如下被指定词类和置信度得分:
This->代词->0.54
#IPhone->名词->0.54
app->名词->0.98
was->动词->0.67
awful->形容词->0.87
Never->副词->0.71
Again->副词->0.74
针对短语矢量的节点可以如下被指定以词类和置信度得分:
This#iPhone app->名词短语
Was awful->动词短语
RSR技术—分类
RSR工具(904)被配置为具有分类组件以处理句法文本树并且利用相对应的情感分类对每个节点进行标记。分类组件生成具有相关联的情感分类的文本串(例如,图1在106)。图4提供了分类的进一步细节。
分类是将其句法文本树所表示的文本数据要素分类为其相关联的情感的处理。这通过从上至下遍历句法文本树的节点并且在经过每个节点时计算情感而实现的。
给定句法文本树以及从SVT中所描述的技术获得的经训练的情感SVT模型,能够通过以下步骤对情感进行分类。
在402,分类组件被配置为从SVT工具(908)的SVT模型获得句法文本树的每个单词/短语矢量。图27中示出了其示例。
给定具有被标记的词类标签的句法文本树,每个单词相对应的单词矢量从SVT模型被提取。针对未知单词添加位置单词矢量,其在该单词的单词矢量并未出现在模型中的情况下充当占位符。
在404,针对每个单词矢量,该分类组件计算情感矩阵,并且在406,该分类组件从情感矩阵获得单词矢量。图28中示出了完整句法树的说明性示例,其包括词类。
使用来自情感SVT模型内的情感组合矩阵的矢量,在每个父节点处通过将两个底部子节点的单词/短语数量相连而计算短语矢量。该短语矢量是单词矢量的相同表示的矢量,但是其被用来表示单词的组合(短语)而不是单个单词。
该处理可以类似于分类并且从词类得到置信度得分。该分类组件可以将单词/短语矢量配对与SVT情感组合矩阵相乘以生成新的矢量。该分类组件可以继续处理以将逻辑函数应用于新矢量的每个值。为了生成置信度得分,每个值可以通过将该值除以所述值之和而被转换为概率。短语的情感可以由具有最高得分的矢量中的值所确定。逻辑函数表达0和1之间的值。
在408,该分类组件确定句法文本树中是否还有任何剩余单词/短语有待计算。如果是,则该处理重复步骤404和406。
一旦该句法文本树的所有节点都已经计算了其相关矢量,则在410,分类组件获得置信度得分。
该分类组件通过由情感矩阵将顶部节点的短语矢量和词类标签进行相乘并且通过情感SVT模型的计算功能解析该值而使用SVT模型但是情感矩阵来计算每种情感的置信度得分。其说明性示例在图29中被示出。
给定置信度得分生成了每种情感处于0和1之间的概率值,具有最高概率的情感被指定作为表达该文本的最为可能的情感。该情感可以被用于情感分类响应。图30中示出了说明性示例。
作为另外的示例:
愤怒->0.76
悲伤->0.11
快乐->0.13
愤怒由于具有最高概率而是主导的。
图31图示了针对短语“I love coffee(我爱咖啡)”具有不同矢量值的语义树的示例。该语义树被示为具有短语和单词矢量以及相对应的矢量值。
在412,该分类组件确定置信度得分是否高于输出具有相关联情感的文本串的阈值。如果是,则该分类组件输出具有相关联情感的串。如果否,则该分类组件触发如关于图5所描述的由SVT工具(908)所进行的增强。
作为说明性示例,分类可以使用以下情感来标记树中的每个节点。
情感
这些是用于说明性目的的非限制性示例。
以下示例置信度得分的范围从0至100。
置信度得分
Neu 0-100
Hap 0-100
Ang 0-100
下文提供了带标记句子的说明性和非限制性的示例,其示出了来自解析组件的被分类组件转换为具有相关联情感的文本串的句法文本树。
(Ang(Neu entity)(Neu(Neu why)(Neu(Neu you)(Neu(Neu do)(Neu(Neu this)(Neu?!?!))))))
(Ang(Ang(Neu where)(Ang(Neu the)(Neu f*)))(Neu(Neu(Neu is)(Neu(Neuthe)(Neu entity)))(Neu?)))
(Hor(Neu(Neu this)(Neu entity))(Hor(Hor(Neu smells)(Hor horrible))(Neu!)))
((Ang(Neu实体)(Neu(Neu为什么)(Neu(Neu你)(Neu(Neu做)(Neu(Neu这)(Neu?!?!))))))
(Ang(Ang(Neu哪里)(Ang(Neu这)(Neu该死的)))(Neu(Neu(Neu是)(Neu(Neu这)(Neu实体)))(Neu?)))
(Hor(Neu(Neu这)(Neu实体))(Hor(Hor(Neu闻上去)(Hor可怕))(Neu!))))
SVT
图5图示了SVT工具(908)所实施的示例处理。
在502,SVT工具(908)确定带标记文本语料库(916)的类型是解析还是情感。
在504和512,SVT工具(908)执行预训练。图6图示了预训练的细节。
预训练处理加载并设置要由带标记文本语料库所训练的SVT模型。该SVT模型保存被用来表达文本串的单词和语义关系的矢量和矩阵。使用单独的SVT模型进行解析和情感分类。用于解析的模型被称之为解析SVT模型,而用于分类的模型则被称之为情感SVT模型。带标记文本语料库是表达每个树节点的情感和词类的带标记句法文本树的大型集合。
在604和616,该带标记文本语料库被加载到SVT模型中。
在606和618,SVT工具(908)针对带标记文本语料库中的每个唯一单词生成随机化矢量的列表。该矢量的长度被表达为“d”。这些矢量被称之为单词矢量。
在608和620,SVT工具(908)通过将单词矢量合并而生成短语矢量。
在610和622,SVT工具(908)创建大小为(2d×d)的矩阵,其表达如何将单词或短语矢量的配对进行组合以表达更长的短语。其在产生表示短语的短语矢量的处理中被使用。该处理被称之为短语组合并且该矩阵一般被称之为组合矩阵。在情感SVT模型中,该矩阵被称之为情感组合矩阵,而在解析SVT模型中,该矩阵则被称之为解析组合矩阵。
如果SVT模型用于解析,则在612,SVT工具(908)创建长度为(d)的解析概率矢量,其被用来在解析期间确定短语矢量的概率。
如果SVT模型被用于对情感进行分类,则在624,SVT模型创建大小为(c×d)的矩阵,其中“c”是个体情感的数量。该矢量表达如何将单词/短语矢量分类为情感。这被称作情感矩阵。
如果SVT模型被用于解析,则在614,SVT模型创建大小为(a×d)的矩阵,其中“a”是个体词类标签的数量。该矩阵表达如何将单词/短语矢量分类为特定言语标签。这被称之为词类矩阵。
所有矢量和矩阵中的值都被随机化。
返回参考图5,在506和514,SVT工具(908)执行训练。训练处理的细节在图7中示出。
该训练处理涉及针对每个单词、情感、词类和短语组合学习特征表示。SVT工具(908)通过将模型中存在的误差差异和带标记文本语料库机进行比较而逐渐调整SVT模型中的值。
在702,SVT工具(908)确定请求是来自解析组件还是分类组件。在704和716,SVT工具(908)从预训练而获得随机化的SVT模型。
该训练处理可以涉及将带标记文本语料库划分为小的个体集合。每个单独集合被称之为批次。
在706和718,SVT工具(908)继续进行以从树的底部向顶部计算该树中的每个节点处的每个矢量的误差率。该误差率表示矢量在SVT模型中距离正确分类情感和/或词类有多远。
该误差率可以通过取得矢量的置信度得分,从正确分类的概率中减去1,并且将置信度得分中的每个值的对数之和取反来计算。该误差率被表达为浮点数。
作为说明性示例,给定矢量的该置信度得分:
愤怒->0.30
快乐->0.13
悲伤->0.44
如果正确分类为“愤怒”,则误差率可以被表达为:
误差率=-1*sum(log(愤怒–1)+log(快乐)+log(悲伤))
在708和720,来自整个树节点的误差率被求和并且以派生矢量进行表达。该派生矢量将原点表示为其每个值的派生物。其与原始矢量格式的长度相同。该派生矢量表达了矢量内的值需要进行调整以正确分类正确情感的方向。
在710和722,来自批次的树的集合派生矢量在需要的情况下继续被正规化并缩放。正规化通过乘以表示每种类型的恒定值而允许派生矢量以不同方式对不同矢量和矩阵类型加以影响。缩放则有助于更新在模型中表现出较弱特征的情感值以反映更大的特征输入。
经调整的派生矢量随后被用来小幅调整SVT模型内的矩阵和矢量值。该模型正是这样随时间而逐渐学习。
这整个处理被重复直至整体误差率如在712和724所确定的被最小化。
一旦误差率被最小化,则在714和726,SVT模型就被产生并且能够被用于情感分类以及解析(例如,图5在508和516)。
如图5所示,SVT工具(908)可以在510和518执行增强。进一步细节在图8中示出。
为了在训练已经完成之后持续改善解析和情感SVT模型,我们研发了发现并修正在带标记文本语料库中并未看到的新的文本数据的分类的方法。针对解析和情感SVT模型中的每一种对该方法加以描述:
在对新的文本数据进行词类和情感的每种分类之后,给出每种所指定分类的置信度得分。
在804和810,SVT工具(908)获得句法文本树。
如果置信度得分中的值低于置信度阈值,则该句法文本树被认为无法从我们的SVT模型被分类为具有高程度的置信度。置信度阈值是0和100之间的值,其中来自于置信度得分的值必须比其更大以表示其被分类为具有高程度的置信度。
如果以上有关句法文本树的声明为真。则在806和812,该树随后被存储、重新标记,并且在808和814,被添加至带标记文本语料库。
SVT模型通过进行预训练和训练处理而被重新生成并且利用新的带标记文本语料库进行训练。
假定SVT模型现在已经学习到如何正确分类句法文本树,则在将来可以为其指定具有高程度的置信度的正确分类。因此,准确性将随着完成更多分类而逐渐提高。
作为RSR的一部分,在一种可能实施方式中,分类器可以将文本数据要素划分为单词的阵列或矢量或者可以生成标记化数据以便进行分析。
现在参考图2,示出了图1的方法的一个方面的某些方面,也就是由这里所描述的实施例所实施的RSR技术。
因此,计算机平台可以包括使得能够在文本数据要素与之前使用单词和短语矢量所分类的文本数据要素的集合同义的情况下返回情感分类的功能。该功能可以通过同义词替换来提供,上述同义词替换链接至文本分析引擎(906)或者构成其一部分。同义词替换的属性之一包括更好地处理在文本上与模型中当前所表现的不同但是其基本语义在之前已经进行过评估的文本的能力。涉及该组件的说明性示例可以包括对这些进行评估但是并不局限于我们模型中的单词:‘good(好)’、‘great(很好)’、‘outstanding(杰出)’、‘fantastic(极好)’和‘amazing(惊人)’。即使这些单词彼此在拼写和字符方面都完全不同,但是基本语义在这些单词之一之前被分析过的情况下很可能已经见过。这进而可以确保该语义在确定特定单词在文本数据中所具有的位置时有所体现。该组件对于准确应对之前还没有计算过的单词而言是重要的。
RSR组件可以实施一种或多种经监管的机器学习方法以便确定每个单词的词类,即其是名词、动词、形容词还是副词。该计算机平台所实施的RSR技术还可以使用数据存储设备及其记录,上述记录包括作为训练集合进行操作的各种经分类的句子。该数据存储设备可以被补充以其他资源,诸如电子词典以及诸如WIKIPEDIATM的目录。
作为另一个示例,该解析组件可以对文本数据要素“amazing first goal forManchester!!(对于曼切斯特的惊人的第一个进球!!)”进行处理,该文本数据要素将包括单词goal和Manchester。这可以参考足球术语以及足球队。这里所描述的实施例的解析组件可以确定每个单词的词类,即amazing(形容词)first(形容词)goal(名词)for(介词)Manchester(专有名词)。示例词类可以是:
amod(goal-3,amazing-1)
amod(goal-3,first-2)
root(ROOT-0,goal-3)
prep(goal-3,for-4)
nn(!!-6,Manchester-5)
pobj(for-4,!!-6)
(ROOT(NP
(NP(JJ amazing)(JJ first)(NN goal))
(PP(IN for)
(NP(NNP Manchester)(NNP!!)))))
如以上示例中所阐述的,可以向情感指定以数字,并且情感记录可以利用确定情感之间的依赖性的信息进行编码,这些依赖性定义了情感分组。这些依赖性使得能够利用可以被分析以揭示具有相关情感属性的文本数据要素之间的模式的信息对文本数据要素进行编码。这种使用依赖性进行的编码进一步使得能够对模式识别加以利用。
在这里所描述实施例的一个方面,该计算机系统可以以使得能够快速处理大量文本数据的方式进行配置。如图9和11所示,RSR工具和SVT工具互相链接以使得组件能够互相通信并且在实时处理文本数据要素(例如,通过文本分析引擎(906))时进行交互操作。该方面允许大量数据的快速处理。
在这里所描述实施例的实施方式的另一个可能的方面,服务器处理器(1100)可以被配置为使得其并不存储所有数据,并且例如通过持久存储数据的外部资源来访问附加数据。API允许客户端设备(1106)直接连接至服务器处理器(1100)并供应文本数据要素,并且实时或接近实时地获得计算机网络服务所进行的情感分析处理的结果。
可能实施方式
根据这里所描述实施例的一个方面,可以提供一种计算机网络所实施的系统,其用于基于文本数据要素的分析而提供计算机网络服务以确定一种或多种相关联情感。该组成网络可以对实施这里所描述的技术和特征的各种物理的、有形的硬件组件进行互联。
该计算机网络所实施的系统可以包括一个或多个服务器计算机,它们链接至互联网,并且支持一种或多种计算机所实施的工具,上述工具提供了包括实施所描述的RSR技术的第一工具以及实施所描述的SVT技术的第二工具的两部分的计算机架构。
将要意识到的是,这里所示例的执行指令的任何模块或组件都可以包括计算机可读介质或者以其他方式对计算机可读介质进行访问,上述计算机可读介质诸如存储介质、计算机存储介质、或数据存储设备(可移除和/或非可移除的),作为示例,诸如磁盘、光学盘、磁带以及其他形式的计算机可读介质。计算机存储介质可以包括以用于信息存储的任意方法或技术所实施的易失性和非易失性、可移除和非可移除介质,诸如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质的示例包括RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字多功能盘(DVD)、蓝光盘或其他光学存储,磁性卡盒、磁带、磁盘存储或者其他磁性存储设备,或者能够被用来存储所期望信息并且能够由应用、模块或其二者进行访问的任意其他介质。任何这样的计算机存储介质都可以是移动设备、追踪模块、对象追踪应用等的一部分,或者能够从其进行访问或连接。这里所描述的任何应用或模块都可以使用计算机可读/可执行指令来实施,上述指令可以由这样的计算机可读介质所存储或者以其他方式进行保存。
因此,能够对特定实施例实现改变、修改和变化。
这里所描述的实施例可以以各种实施例来实践。适当配置的计算机设备以及相关联的通信网络、设备、软件和固件可以提供一种用于支持如以上所买收到一个或多个实施例的平台。作为示例,图10示出了计算机设备1004,其可以包括中央处理器(“CPU”)1018,CPU 1018连接至存储单元1024以及随机访问存储器1022。CPU 1018可以处理操作系统1026、应用程序1030和数据1028。操作系统1026、应用程序1030和数据1028可以被存储在存储单元1024中并且可以如所要求地被加载到存储器1016中。计算机设备1004可以进一步包括图形处理单元(GPU)1020,GPU 1020操作连接至CPU 1018和存储器1022以从CPU 1018卸载密集图像处理计算并且与CPU 1018并行地运行这些计算。操作人员1002可以使用视频接口1008所连接的视频显示器1006和被I/O接口1008所连接的诸如键盘1010、鼠标1012以及磁盘驱动器和固态硬盘1014的各种输入/输出设备与计算机设备1004进行交互。鼠标1012可以被配置为控制光标在视频显示器1006中的移动,并且利用鼠标按钮对出现在视频显示器1008中的各种图形用户界面(GUI)控件进行操作。磁盘驱动器或固态硬盘1014可以被配置为接纳计算机可读介质1016。计算机设备1004可以经由网络接口而形成网络的一部分,这允许计算机设备1004与其他适当配置的数据处理系统(未示出)进行通信。例如,计算机设备1004可以被用来实施图9和11中所示出或者这里以其他方式所描述的各种组件。
这里所描述的实施例可以生成并传送用户界面以便在显示屏或设备上进行显示。针对这里所描述实施例的示例应用可以是针对商品和服务的营销。这里所描述的实施例可以利用用于营销应用的社交媒体平台。
消费者已经将社交媒体整合到他们的日常生活中并且可以实时地在他们的社交媒体对话中表达对于他们所喜爱品牌的情感。这对于形成他们的网络内的其他消费者的意见发挥着巨大的影响力。
这里所描述的实施例可以使用计算机处理技术来自动解释用户所生成的海量文本上的这些情感。这里所描述的实施例可以使用这里所描述的用于实时地自动检测文本内的情感的技术。这在广告和营销中会是有用的预处理步骤。这可以使得品牌能够根据社交网络上的实时对话而在定量地度量消费者的情感连接以及有关与他们所喜爱的品牌参与回馈。
这里所描述的实施例可以实时地自动处理社交网络上的文本对话并且提供文本数据的情感。这里所描述的实施例可以对在社交媒体平台上所检测到的不同情感进行分析。
文本分析引擎(906)也可以跨多个行业而得以应用。
作为示例,文本分析引擎(906)可以实施基于云的人工智能个人助理,其基于消费者的对话以及他们针对其社交媒体平台上的个人网络内的话题的情感而利用文本分析引擎(906)以促进其推荐引擎。
另一种示例应用是金融行业,用于基于消费者跨不同社交媒体平台而针对有关但并不局限于股票、公司和行业的话题的情感来交易股票并监视其表现。
另外的示例应用是用于社交和非盈利目的,诸如经由文本分析引擎跨多个社交媒体平台检测消费者针对多个主题的情感的能力而报告身体虐待、防止自杀、霸凌等。
另一种示例应用是用于通过检测消费者跨社交媒体平台而针对感兴趣主题的情感来报告和监视政党及其候选人的选举。
图12图示了提供用于定义广告应用的活动设置的用户界面的显示屏。该示例可以涉及通过基于社交媒体平台上有关品牌的文本的情感分类而度量消费者在这样社交媒体平台上的参与回馈以对品牌所进行的情感分析。
该用户界面可以包括用于接收活动名称的字段,并且其还可以接收其他数据,诸如有关商品或服务的品牌,以及要应用于社交媒体平台上的文本(例如,单词、短语)以便为了情感分析而进行标记的关键词或过滤器。该用户界面例如可以被给定品牌的账户管理员所使用。
图13图示了提供用于定义广告应用的活动目标的用户界面的显示屏。该界面包括目标列表以及用于定义地理区域的地图工具。该用户界面可以使得能够选择特定地区来进行文本分析。该文本可以与来自不同地理区域的用户相关联。仅与所选择地理区域相关联的用户和文本可以被用于情感分析或分类。示例过滤器包括主题和情感。
图14至16图示了提供用于定义广告应用的目标列表的用户界面的显示屏。该用户界面针对与所分类情感相关联的不同用户而提供了示例社交媒体文本和内容。该用户界面还可以被配置为用于提供分析结果。该用户界面可以以各种视觉形式来提供分析结果,诸如条形图、曲线图、汇总数据集合等,它们例如具有注释。结果数据可以被输出并传送至不同系统以便进一步处理。该结果涉及有关所选择情感而对社交媒体文本的处理。还可以显示不同的社交媒体用户。用于获得文本数据要素以便进行处理的目标可以使用各种因素来识别,诸如位置和人口统计信息。
图17图示了提供用于管理广告应用的广告的用户界面的显示屏。在一些示例中,有关广告的文本可以被处理以便进行情感分类。
图18图示了提供用于定义广告应用的预算以便追踪第三方广告商的服务使用的用户界面的显示屏。可能存在与处理和分类服务相关联的成本。
图19图示了提供用于回顾并启动广告应用的活动的用户界面的显示屏。
图20和21图示了提供用于广告应用的活动仪表盘的另一个用户界面的显示屏,其包括不同的活动量度。
用户界面可以提供(如数据存设备中所存储的)不同情感的列表以供选择。所选择的情感可以关联于品牌或活动进行保存并且被用于情感分析或分类。例如,“快乐”可以被选择以检测与品牌相关联的(并且经由关键词或过滤器所选择的)文本中指示快乐情感的情感。
该用户界面可以显示来自不同用户的社交媒体文本,其可以基于关联于品牌的关键词过滤器而被标记。这使得用户能够回顾与品牌或活动相关的社交媒体文本。
这里所描述的实施例可以提供应用编程接口以发送文本或者作为响应接收注释为情感(快乐、热爱、激动、希望、害怕、悲伤、恐怖、愤怒或中性)和主题(关键词或类别)的文本。
在另外的方面,这里所描述的实施例提供了系统、设备、方法以及包括非瞬态机器可读指令集的计算机程序产品,以便在实施这样的方法并且使能之前所描述的功能时使用。
虽然已经以某种详细程度以示例性的形式描述并图示了本公开,但是所要注意的是,描述和图示仅是作为示例而进行。可以对构造和组合的细节以及部分和步骤的部署进行多种变化。因此,这样的变化意在被包括在本发明之中,其范围由权利要求所限定。
除了包括任意可选步骤或者其组成部分的所描述处理内明确指出或固有的范围之外,并未预期或暗示其他顺序、次序或组合。如本领域技术人员将会理解的,关于这里所描述的处理以及任意的系统、设备等,大量变化在各种环境中是可能的甚至是有利的。
这里所描述的系统和方法的实施例可以以硬件或软件或者二者的组合来实施。这些实施例可以以在可编程计算机上执行的计算机程序来实施,每个计算机包括至少一个处理器、数据存储系统(包括易失性存储器或非易失性存储器或其他数据存储部件或者它们的组合),以及至少一个通信接口。例如而并非作为限制,各个可编程计算机可以是服务器、网络电器、机顶盒、嵌入式设备、计算机扩展模块、个人计算机、膝上计算机、个人数据助理、蜂窝电话、智能电话设备、UMPC平板计算机和无线超媒体设备,或者能够被配置为执行这里所描述的方法的任意其他计算设备。
程序代码被应用以输入数据以执行这里所描述的功能并且生成输出信息。该输出信息以已知方式而被应用于一个或多个输出设备。在一些实施例中,该通信接口可以是网络通信接口。在其中本发明的要素被组合的实施例中,该通信接口可以是软件通信接口,诸如用于进程间通信的那些接口。在其他实施例中,可以存在被实施为硬件、软件以及它们的组合的通信接口的实施方式。
每个程序可以以高级过程或面向对象的编程或脚本语言或者它们的组合来实施。然而,可替换地,程序可以在期望的情况下以汇编或机器语言来实施。语言可以是经编译或解释的语言。每种这样的计算机语言都可以被存储在存储介质或设备(例如,ROM、磁盘、光学盘)上,上述存储介质或设备能够被通用或专用可编程计算机进行读取以便在存储介质或设备被计算机所读取时配置和操作该计算机以执行这里所描述的过程。系统的实施例也可以被认为被实施为利用计算机程序进行配置的非瞬态的计算机可读存储介质,其中被这样配置的存储介质使得计算机以具体和预定方式进行操作以执行这里所描述的功能。
此外,所描述实施例的系统和方法能够在计算机程序产品中进行分布,上述计算机程序产品包括承载用于一个或多个处理器的计算机可用指令的物理、非瞬态的计算机可读介质。该介质可以以各种方式来提供,包括一个或多个软盘、光盘、磁带、芯片、磁性和电子存储介质、易失性存储器、非易失性存储器等。非瞬态的计算机可读介质可以包括所有的计算机可读介质,其例外是瞬态的传播信号。术语非瞬态并非意在排除存储于其上的数据可以仅是被临时存储的诸如主存储器、易失性存储器、RAM等的计算机可读介质。计算机可用指令也可以是各种形式,包括编译和非编译代码。
贯穿以下讨论,将关于从计算设备所形成的服务器、服务、接口、门户、平台或其他系统进行多种参考。应当意识到的是,这样的术语的使用是被认为表示具有至少一个处理器的一个或多个计算设备,上述处理器被配置为执行存储在计算机可读的有形、非瞬态介质上的软件指令。例如,服务器能够包括作为web服务器、数据库服务器、或者以实现所描述的角色、职责或功能的方式的其他类型的计算机服务器进行操作的一个或多个计算机。应当进一步意识到的是,所公开的基于计算机的算法、处理、方法或其他类型的指令集能够被实现为包括存储指令的非瞬态的有形计算机可读介质的计算机程序产品,上述指令使得处理器执行所公开的步骤。应当意识到的是,如这里所描述的,这里所描述的系统和方法可以动态配置网络安全设备以拒绝或允许在这些设备和网络资源之间的网络访问。
以下讨论提供了本发明主题的许多示例实施例。虽然每个实施例表示了发明要素的单一组合,但是该发明主题被认为包括所公开要素的所有可能组合。因此,如果一个实施例包括要素A、B和C,并且第二实施例包括要素B和D,则该发明主题还被认为包括A、B、C或D的其他其余组合,即使其并未被明确公开。
如这里所使用的,除非上下文另外有所指示,否则术语“耦合至”意在包括直接耦合(其中两个互相耦合的部件互相接触)和间接耦合(其中至少一个另外的部件位于两个部件之间)。因此,术语“耦合至”和“与…耦合”以同义方式被使用。
在另外的方面,本公开提供了系统、设备、方法以及包括非瞬态机器可读指令集的计算机程序产品,以便在实施这样的方法并且使能之前所描述的功能时使用。
虽然已经以某种详细程度以示例性的形式描述并图示了本公开,但是所要注意的是,描述和图示仅是作为示例而进行。可以对构造和组合的细节以及部分和步骤的部署进行多种变化。因此,这样的变化意在被包括在本发明之中,其范围由权利要求所限定。
除了包括任意可选步骤或者其组成部分的所描述处理内明确指出或固有的范围之外,并未预期或暗示其他顺序、次序或组合。如本领域技术人员将会理解的,关于这里所描述的处理以及任意的系统、设备等,大量变化在各种环境中是可能的甚至是有利的,而并不背离仅由权利要求所限定的本发明的范围。

Claims (25)

1.一种系统,包括:
至少一个客户端计算设备,其执行应用以传送作为情感分类请求的文本数据要素的集合;
至少一个计算机处理器,其通过通信网络与所述至少一个计算设备进行通信以接收所述情感分类请求,并且作为响应来传送情感分类响应,计算机服务器配置文本分析引擎,用于确定文本数据要素的所述集合的语法和语义结构的逆向句子重构(RSR)工具,以及生成句子矢量化技术(SVT)模型的SVT工具,其中所述计算机服务器被配置为使用所述RSR工具和SVT工具来计算所述情感分类响应,其中所述RSR工具与所述SVT工具进行交互来提供解析组件以生成具有针对所述文本数据要素的词类的句法文本树,并且提供分类组件以针对所述情感分类响应而对所述文本数据要素的情感进行分类;和
至少一个数据存储设备,其存储所述SVT模型、标记文本语料库以及俚语和拼写词典。
2.根据权利要求1所述的系统,进一步包括预处理器工具以使用多语言处理器、俚语词典匹配器、文本拼写调整器和文本规格化器处理器中的至少一个对所述文本数据要素实施预处理以输出文本串。
3.根据权利要求1所述的系统,其中所述解析组件被配置为:
针对所述文本数据要素中的每个单词,从所述SVT工具的解析SVT模型获得单词矢量;
针对每个单词矢量:
使用解析组合矩阵和解析概率矢量计算所述单词矢量与相邻单词矢量组合得有多好的概率;并且
通过将所述单词矢量与具有最高概率的相邻单词矢量进行组合而从所述解析组合矩阵生成短语矢量;
其中通过将每个新的短语矢量作为单词矢量来重复所述计算和所述生成以生成表示单词或短语矢量的节点的句法文本树;
计算词类矩阵;
针对所述句法文本树中的每个节点:
使用所述词类矩阵计算置信度得分,所述置信度得分提供表示每个词类有多可能能够表示所述节点处的所述单词或短语矢量的概率的值的列表;
基于所述置信度得分中的最高概率将词类指定至所述节点;
确定所述置信度得分是否高于阈值;并且
输出每个节点被标记有其相对应词类的句法文本树。
4.根据权利要求3所述的系统,其中所述解析组件被配置为执行预训练和训练以获得解析SVT模型。
5.根据权利要求4所述的系统,其中所述解析组件被配置为作为预训练而获得带标记文本语料库,生成单词矢量,生成短语矢量,生成解析组合矩阵,生成解析概率矢量,并且生成词类矩阵以输出随机化的解析SVT模型。
6.根据权利要求5所述的系统,其中所述解析组件被配置为作为训练而获得所述随机化的解析SVT模型,计算误差率,生成派生矢量,调整所述误差率和所述派生矢量,确定所述误差率并未最小化,并且生成解析SVT模型。
7.根据权利要求4所述的系统,其中所述解析组件被配置为作为增强而获得所述句法文本树,存储并重新标记所述句法文本树并且更新所述带标记文本语料库。
8.根据权利要求1所述的系统,其中所述分类组件被配置为:
针对所述文本数据要素的每个单词,从所述SVT工具的情感SVT模型获得单词矢量;
针对每个单词矢量,计算情感矩阵并且从所述情感矩阵获得单词矢量;
获得置信度得分;并且
确定所述置信度得分是否高于阈值以输出具有相关联情感的文本串。
9.根据权利要求8所述的系统,其中所述分类组件被配置为执行预训练并且执行训练以获得情感SVT模型。
10.根据权利要求9所述的系统,其中所述分类组件被配置为作为预训练而获得带标记文本语料库,生成单词矢量,生成短语矢量,生成情感组合矩阵,生成情感概率矢量,以输出随机化的情感SVT模型。
11.根据权利要求9所述的系统,其中所述分类组件被配置为作为训练而获得随机化的情感SVT模型,计算所述误差率,生成派生矢量,调整误差率和派生矢量,确定所述误差率并未被最小化,生成情感SVT模型。
12.根据权利要求9所述的系统,其中所述解析组件被配置为作为增强而获得句法文本树,并且存储并重新标记所述句法文本树以更新解析文本语料库。
13.一种计算机设备,包括:
至少一个数据存储组件;
至少一个接收器,其通过通信网络与至少一个客户端计算设备上的应用进行通信以接收作为情感分类请求的文本数据要素的集合;
至少一个处理器,其被配置为提供用于确定文本数据要素的所述集合的语法和语义结构的逆向句子重构(RSR)工具,以及用以生成句子矢量化技术(SVT)模型的SVT工具;
至少一个传送器,其用以向所述至少一个客户端计算设备上的所述应用传送经分类的情感数据作为情感分类响应;并且
其中所述至少一个处理器被配置为具有以控制逻辑以使用所述RSR工具和所述SVT工具将所述情感分类请求转换为所述情感分类响应,其中所述RSR工具与所述SVT工具进行交互来提供解析组件以对所述文本数据要素进行解析,并且提供分类组件以针对所述情感分类响应而对所述文本数据要素的情感进行分类。
14.一种方法,包括:
从客户端设备上执行的应用接收情感分类请求,情感分类请求包括文本数据要素;
作为响应,通过以下而生成并传送情感分类响应:
使用逆向句子重构(RSR)工具确定文本数据要素的所述集合的语法和语义结构;
使用句子矢量化技术(SVT)工具生成SVT模型;
存储所述SVT模型、带标记文本语料库以及俚语和拼写词典;
使用所述RSR工具的解析组件生成具有所述文本数据要素的句法文本树;并且
使用所述RSR工具的分类组件对所述句法文本树中的所述文本数据要素的情感进行分类。
15.根据权利要求14所述的方法,进一步包括使用多语言处理器、俚语词典匹配器、文本拼写调整器和文本规格化处理器中的至少一个对所述文本数据要素进行预处理。
16.根据权利要求14所述的方法,进一步包括:
针对所述文本数据要素中的每个单词,从所述SVT工具的解析SVT模型获得单词矢量;
针对每个单词矢量:
使用解析组合矩阵和解析概率矢量计算所述单词矢量与相邻单词矢量组合得有多好的概率;并且
通过将所述单词矢量与具有最高概率的相邻单词矢量进行组合而从所述解析组合矩阵生成短语矢量;
其中通过将每个新的短语矢量作为单词矢量来重复所述计算和所述生成以生成表示单词或短语矢量的节点的句法文本树;
计算词类矩阵;
针对所述句法文本树中的每个节点:
使用所述词类矩阵计算置信度得分,所述置信度得分提供表示每个词类有多可能能够表示所述节点处的所述单词或短语矢量的概率的值的列表;
基于所述置信度得分中的最高概率将词类指定至所述节点;
确定所述置信度得分是否高于阈值;以及
输出每个节点被标记有其相对应词类的句法文本树。
17.根据权利要求14所述的方法,进一步包括预训练和训练以获得解析SVT模型。
18.根据权利要求14所述的方法,进一步包括作为预训练而获得所述带标记文本语料库,生成单词矢量,生成短语矢量,生成解析组合矩阵,生成解析概率矢量,并且生成词类矩阵以输出随机化的解析SVT模型。
19.根据权利要求14所述的方法,进一步包括作为训练而获得随机化的解析SVT模型,计算误差率,生成派生矢量,调整所述误差率和所述派生矢量,确定所述误差率并未最小化,并且生成解析SVT模型。
20.根据权利要求14所述的方法,进一步包括作为增强而获得所述句法文本树,存储并重新标记所述句法文本树并且更新所述带标记文本语料库。
21.根据权利要求14所述的方法,进一步包括:
针对所述文本数据要素的每个单词,从所述SVT工具的情感SVT模型获得单词矢量;
针对每个单词矢量,计算情感矩阵并且从所述情感矩阵获得单词矢量;
获得置信度得分;以及
确定所述置信度得分是否高于输出具有相关联情感的文本串的阈值。
22.根据权利要求21所述的方法,进一步包括进行预训练和执行训练以获得情感SVT模型。
23.根据权利要求21所述的方法,进一步包括作为预训练而获得带标记文本语料库,生成单词矢量,生成短语矢量,生成情感组合矩阵,生成情感概率矢量,以输出随机化的情感SVT模型。
24.根据权利要求21所述的方法,进一步包括作为训练而获得所述随机化的情感SVT模型,计算所述误差率,生成派生矢量,调整误差率和派生矢量,确定所述误差率并未被最小化,生成情感SVT模型。
25.根据权利要求21所述的方法,进一步包括作为增强而获得句法文本树,并且存储并重新标记所述句法文本树以更新解析文本语料库。
CN201580013261.XA 2014-01-10 2015-01-09 用于自动检测文本中的情感的系统、设备和方法 Active CN106104521B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461925942P 2014-01-10 2014-01-10
US61/925,942 2014-01-10
PCT/CA2015/000014 WO2015103695A1 (en) 2014-01-10 2015-01-09 Systems, devices, and methods for automatic detection of feelings in text

Publications (2)

Publication Number Publication Date
CN106104521A true CN106104521A (zh) 2016-11-09
CN106104521B CN106104521B (zh) 2019-10-25

Family

ID=53523404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580013261.XA Active CN106104521B (zh) 2014-01-10 2015-01-09 用于自动检测文本中的情感的系统、设备和方法

Country Status (5)

Country Link
US (1) US10073830B2 (zh)
EP (1) EP3092581A4 (zh)
CN (1) CN106104521B (zh)
CA (1) CA2973138C (zh)
WO (1) WO2015103695A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346436A (zh) * 2017-08-22 2018-07-31 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN109739494A (zh) * 2018-12-10 2019-05-10 复旦大学 一种基于Tree-LSTM的API使用代码生成式推荐方法
CN110046239A (zh) * 2019-04-15 2019-07-23 合肥工业大学 基于情感编辑的对话方法
CN110083702A (zh) * 2019-04-15 2019-08-02 中国科学院深圳先进技术研究院 一种基于多任务学习的方面级别文本情感转换方法
CN110097278A (zh) * 2019-04-28 2019-08-06 广东省科技基础条件平台中心 一种科技资源智能共享融合训练系统和应用系统
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法
CN110704715A (zh) * 2019-10-18 2020-01-17 南京航空航天大学 一种网络霸凌的检测方法及系统
CN111144097A (zh) * 2019-12-25 2020-05-12 华中科技大学鄂州工业技术研究院 一种对话文本的情感倾向分类模型的建模方法和装置
CN112349272A (zh) * 2020-10-15 2021-02-09 北京捷通华声科技股份有限公司 语音合成方法、装置、存储介质及电子装置
CN112948588A (zh) * 2021-05-11 2021-06-11 中国人民解放军国防科技大学 一种用于情报快速整编的中文文本分类方法
CN113312486A (zh) * 2021-07-27 2021-08-27 中国电子科技集团公司第十五研究所 一种信号画像构建方法装置、电子设备、存储介质
CN113378515A (zh) * 2021-08-16 2021-09-10 宜科(天津)电子有限公司 一种基于生产数据的文本生成系统
US20230335243A1 (en) * 2022-04-18 2023-10-19 GE Precision Healthcare LLC Pipeline for intelligent text annotation of medical reports via artificial intelligence based natural language processing workflows

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20180253732A1 (en) * 2017-03-06 2018-09-06 Tomer Bakalash Modeling Social and Emotional Brand-Consumer Relationships
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
KR102222122B1 (ko) * 2014-01-21 2021-03-03 엘지전자 주식회사 감성음성 합성장치, 감성음성 합성장치의 동작방법, 및 이를 포함하는 이동 단말기
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
FI20165240A (fi) 2016-03-22 2017-09-23 Utopia Analytics Oy Menetelmä, järjestelmä ja väline sisällön moderointiin
US10984318B2 (en) * 2016-06-15 2021-04-20 University Of Ulsan Foundation For Industry Cooperation Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
US10521253B2 (en) * 2016-06-28 2019-12-31 International Business Machines Corporation Framework for automated globalization enablement on development operations
CN108228657B (zh) * 2016-12-22 2022-05-27 沈阳美行科技股份有限公司 一种关键字检索的实现方法及装置
US10262041B2 (en) * 2017-03-29 2019-04-16 Accenture Global Solutions Limited Scoring mechanism for discovery of extremist content
US20180315414A1 (en) 2017-04-26 2018-11-01 International Business Machines Corporation Adaptive digital assistant and spoken genome
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
KR102027471B1 (ko) * 2017-06-20 2019-10-01 라인 가부시키가이샤 소셜 네트워크 컨텐츠를 기반으로 단어 벡터화 기법을 이용하여 일상 언어로 확장하기 위한 방법 및 시스템
KR102012404B1 (ko) * 2017-08-18 2019-08-20 동아대학교 산학협력단 언어 분석기별 정답 레이블 분포를 이용한 자연어 이해 방법
US10999325B1 (en) * 2017-10-20 2021-05-04 Skyhigh Networks, Llc Cloud security system implementing service action categorization
WO2019112622A1 (en) * 2017-12-08 2019-06-13 Google Llc Restrict transmission of manipulated content in a networked environment
US11182806B1 (en) * 2018-01-04 2021-11-23 Facebook, Inc. Consumer insights analysis by identifying a similarity in public sentiments for a pair of entities
US10375187B1 (en) * 2018-01-23 2019-08-06 Todd Jeremy Marlin Suicide and alarming behavior alert/prevention system
CN108536674A (zh) * 2018-03-21 2018-09-14 上海蔚界信息科技有限公司 一种基于语义的典型意见聚合方法
CN108595568B (zh) * 2018-04-13 2022-05-17 重庆邮电大学 一种基于极大无关多元逻辑回归的文本情感分类方法
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
CN110727769B (zh) 2018-06-29 2024-04-19 阿里巴巴(中国)有限公司 语料库生成方法及装置、人机交互处理方法及装置
JP6534767B1 (ja) * 2018-08-28 2019-06-26 本田技研工業株式会社 データベース作成装置及び検索システム
CN109447234B (zh) * 2018-11-14 2022-10-21 腾讯科技(深圳)有限公司 一种模型训练方法、合成说话表情的方法和相关装置
US11093712B2 (en) * 2018-11-21 2021-08-17 International Business Machines Corporation User interfaces for word processors
CN109657243A (zh) * 2018-12-17 2019-04-19 江苏满运软件科技有限公司 敏感信息识别方法、系统、设备及存储介质
USD890653S1 (en) 2018-12-17 2020-07-21 Bayerische Motoren Werke Aktiengesellschaft Front bumper for a vehicle
US11032312B2 (en) * 2018-12-19 2021-06-08 Abnormal Security Corporation Programmatic discovery, retrieval, and analysis of communications to identify abnormal communication activity
US11050793B2 (en) 2018-12-19 2021-06-29 Abnormal Security Corporation Retrospective learning of communication patterns by machine learning models for discovering abnormal behavior
US11431738B2 (en) 2018-12-19 2022-08-30 Abnormal Security Corporation Multistage analysis of emails to identify security threats
US11824870B2 (en) 2018-12-19 2023-11-21 Abnormal Security Corporation Threat detection platforms for detecting, characterizing, and remediating email-based threats in real time
CN110162620B (zh) * 2019-01-10 2023-08-18 腾讯科技(深圳)有限公司 黑产广告的检测方法、装置、服务器及存储介质
EP3683657A1 (en) 2019-01-21 2020-07-22 Nokia Technologies Oy Rendering messages in response to user-object interaction
US11126678B2 (en) * 2019-03-05 2021-09-21 Corinne Chantal David Method and system to filter out harassment from incoming social media data
JP7104278B2 (ja) * 2019-03-29 2022-07-21 株式会社Aill コミュニケーション支援サーバ、コミュニケーション支援システム、コミュニケーション支援方法、及びコミュニケーション支援プログラム
CN110110323B (zh) * 2019-04-10 2022-11-11 北京明略软件系统有限公司 一种文本情感分类方法和装置、计算机可读存储介质
US10592609B1 (en) 2019-04-26 2020-03-17 Tucknologies Holdings, Inc. Human emotion detection
US10831990B1 (en) * 2019-05-09 2020-11-10 International Business Machines Corporation Debiasing textual data while preserving information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110378486B (zh) * 2019-07-15 2021-12-03 出门问问信息科技有限公司 网络嵌入方法、装置、电子设备和存储介质
CN110377740B (zh) * 2019-07-22 2022-05-20 腾讯科技(深圳)有限公司 情感极性分析方法、装置、电子设备及存储介质
US11163947B2 (en) * 2019-07-30 2021-11-02 Imrsv Data Labs Inc. Methods and systems for multi-label classification of text data
US11144983B2 (en) 2019-08-09 2021-10-12 Virgin Cruises Intermediate Limited Systems and methods for computer generated recommendations with improved accuracy and relevance
GB2603678B (en) * 2019-09-02 2024-07-10 Ozecom Pty Ltd A text classification method
CN110765761A (zh) * 2019-09-16 2020-02-07 平安科技(深圳)有限公司 基于人工智能的合同敏感词校验方法、装置及存储介质
KR20210041757A (ko) 2019-10-08 2021-04-16 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110795572B (zh) * 2019-10-29 2022-05-17 腾讯科技(深圳)有限公司 一种实体对齐方法、装置、设备及介质
CN110969015B (zh) * 2019-11-28 2023-05-16 国网上海市电力公司 一种基于运维脚本的标签自动化识别方法和设备
CN110990577A (zh) * 2019-12-25 2020-04-10 北京亚信数据有限公司 一种文本分类方法和装置
US11681708B2 (en) 2019-12-26 2023-06-20 Snowflake Inc. Indexed regular expression search with N-grams
US11593984B2 (en) * 2020-02-07 2023-02-28 Apple Inc. Using text for avatar animation
US11470042B2 (en) 2020-02-21 2022-10-11 Abnormal Security Corporation Discovering email account compromise through assessments of digital activities
US11477234B2 (en) 2020-02-28 2022-10-18 Abnormal Security Corporation Federated database for establishing and tracking risk of interactions with third parties
US11252189B2 (en) 2020-03-02 2022-02-15 Abnormal Security Corporation Abuse mailbox for facilitating discovery, investigation, and analysis of email-based threats
WO2021178423A1 (en) 2020-03-02 2021-09-10 Abnormal Security Corporation Multichannel threat detection for protecting against account compromise
US11451576B2 (en) 2020-03-12 2022-09-20 Abnormal Security Corporation Investigation of threats using queryable records of behavior
WO2021217049A1 (en) 2020-04-23 2021-10-28 Abnormal Security Corporation Detection and prevention of external fraud
CN111597807B (zh) * 2020-04-30 2022-09-13 腾讯科技(深圳)有限公司 分词数据集生成方法、装置、设备及其存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11966702B1 (en) * 2020-08-17 2024-04-23 Alphavu, Llc System and method for sentiment and misinformation analysis of digital conversations
US11645472B2 (en) 2020-08-28 2023-05-09 International Business Machines Corporation Conversion of result processing to annotated text for non-rich text exchange
US11528242B2 (en) 2020-10-23 2022-12-13 Abnormal Security Corporation Discovering graymail through real-time analysis of incoming email
US11687648B2 (en) 2020-12-10 2023-06-27 Abnormal Security Corporation Deriving and surfacing insights regarding security threats
CN112528628B (zh) * 2020-12-18 2024-02-02 北京一起教育科技有限责任公司 一种文本处理的方法、装置及电子设备
CN112784584B (zh) * 2020-12-23 2024-01-26 北京泰豪智能工程有限公司 一种文本数据元语义识别方法及装置
CN112733551A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN112802585B (zh) * 2021-01-26 2022-10-04 武汉大学 一种基于分类器的优化医疗x线检查数据分类方法及装置
US11831661B2 (en) 2021-06-03 2023-11-28 Abnormal Security Corporation Multi-tiered approach to payload detection for incoming communications
CN113435582B (zh) * 2021-06-30 2023-05-30 平安科技(深圳)有限公司 基于句向量预训练模型的文本处理方法及相关设备
CN113806539B (zh) * 2021-09-17 2023-07-07 平安科技(深圳)有限公司 一种文本数据增强系统、方法、设备及介质
CN114168730A (zh) * 2021-11-26 2022-03-11 一拓通信集团股份有限公司 一种基于BiLSTM和SVM的消费倾向分析方法
CN117077664B (zh) * 2022-12-29 2024-04-12 广东南方网络信息科技有限公司 一种文本纠错数据的构造方法、装置和存储介质
CN117910467B (zh) * 2024-03-15 2024-05-10 成都启英泰伦科技有限公司 一种离线语音识别过程中的分词处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US20080270116A1 (en) * 2007-04-24 2008-10-30 Namrata Godbole Large-Scale Sentiment Analysis
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
US20120278064A1 (en) * 2011-04-29 2012-11-01 Adam Leary System and method for determining sentiment from text content
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622140B1 (en) * 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
US8463594B2 (en) * 2008-03-21 2013-06-11 Sauriel Llc System and method for analyzing text using emotional intelligence factors
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
US20120101870A1 (en) * 2010-10-22 2012-04-26 International Business Machines Corporation Estimating the Sensitivity of Enterprise Data
US20120226627A1 (en) * 2011-03-04 2012-09-06 Edward Ming-Yu Yang System and method for business reputation scoring
US8311973B1 (en) * 2011-09-24 2012-11-13 Zadeh Lotfi A Methods and systems for applications for Z-numbers
CN103678278A (zh) * 2013-12-16 2014-03-26 中国科学院计算机网络信息中心 一种中文文本情感识别方法
KR101552608B1 (ko) * 2013-12-30 2015-09-14 주식회사 스캐터랩 메신저 대화 기반 감정분석 방법
US9606980B2 (en) * 2014-12-16 2017-03-28 International Business Machines Corporation Generating natural language text sentences as test cases for NLP annotators with combinatorial test design
CN106096664B (zh) * 2016-06-23 2019-09-20 广州云数信息科技有限公司 一种基于社交网络数据的情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US20080270116A1 (en) * 2007-04-24 2008-10-30 Namrata Godbole Large-Scale Sentiment Analysis
CN102200969A (zh) * 2010-03-25 2011-09-28 日电(中国)有限公司 基于句子顺序的文本情感极性分类系统和方法
US20120278064A1 (en) * 2011-04-29 2012-11-01 Adam Leary System and method for determining sentiment from text content
CN103034626A (zh) * 2012-12-26 2013-04-10 上海交通大学 情感分析系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEXANDRA BALAHUR 等: "Building and Exploiting EmotiNet,a Knowledge Base for Emotion Detection Based on the Appraisal Theory Model", 《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108346436A (zh) * 2017-08-22 2018-07-31 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
US11189302B2 (en) 2017-08-22 2021-11-30 Tencent Technology (Shenzhen) Company Limited Speech emotion detection method and apparatus, computer device, and storage medium
US11922969B2 (en) 2017-08-22 2024-03-05 Tencent Technology (Shenzhen) Company Limited Speech emotion detection method and apparatus, computer device, and storage medium
CN109388801B (zh) * 2018-09-30 2023-07-14 创新先进技术有限公司 相似词集合的确定方法、装置和电子设备
CN109388801A (zh) * 2018-09-30 2019-02-26 阿里巴巴集团控股有限公司 相似词集合的确定方法、装置和电子设备
CN109299228B (zh) * 2018-11-27 2021-09-03 创新先进技术有限公司 计算机执行的文本风险预测方法及装置
CN109299228A (zh) * 2018-11-27 2019-02-01 阿里巴巴集团控股有限公司 计算机执行的文本风险预测方法及装置
CN109739494A (zh) * 2018-12-10 2019-05-10 复旦大学 一种基于Tree-LSTM的API使用代码生成式推荐方法
CN109739494B (zh) * 2018-12-10 2023-05-02 复旦大学 一种基于Tree-LSTM的API使用代码生成式推荐方法
CN110046239A (zh) * 2019-04-15 2019-07-23 合肥工业大学 基于情感编辑的对话方法
CN110083702A (zh) * 2019-04-15 2019-08-02 中国科学院深圳先进技术研究院 一种基于多任务学习的方面级别文本情感转换方法
CN110046239B (zh) * 2019-04-15 2020-12-01 合肥工业大学 基于情感编辑的对话方法
CN110083702B (zh) * 2019-04-15 2021-04-09 中国科学院深圳先进技术研究院 一种基于多任务学习的方面级别文本情感转换方法
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法
CN110097278A (zh) * 2019-04-28 2019-08-06 广东省科技基础条件平台中心 一种科技资源智能共享融合训练系统和应用系统
CN110704715B (zh) * 2019-10-18 2022-05-17 南京航空航天大学 一种网络霸凌的检测方法及系统
CN110704715A (zh) * 2019-10-18 2020-01-17 南京航空航天大学 一种网络霸凌的检测方法及系统
CN111144097A (zh) * 2019-12-25 2020-05-12 华中科技大学鄂州工业技术研究院 一种对话文本的情感倾向分类模型的建模方法和装置
CN111144097B (zh) * 2019-12-25 2023-08-18 华中科技大学鄂州工业技术研究院 一种对话文本的情感倾向分类模型的建模方法和装置
CN112349272A (zh) * 2020-10-15 2021-02-09 北京捷通华声科技股份有限公司 语音合成方法、装置、存储介质及电子装置
CN112948588B (zh) * 2021-05-11 2021-07-30 中国人民解放军国防科技大学 一种用于情报快速整编的中文文本分类方法
CN112948588A (zh) * 2021-05-11 2021-06-11 中国人民解放军国防科技大学 一种用于情报快速整编的中文文本分类方法
CN113312486A (zh) * 2021-07-27 2021-08-27 中国电子科技集团公司第十五研究所 一种信号画像构建方法装置、电子设备、存储介质
CN113312486B (zh) * 2021-07-27 2021-11-16 中国电子科技集团公司第十五研究所 一种信号画像构建方法装置、电子设备、存储介质
CN113378515A (zh) * 2021-08-16 2021-09-10 宜科(天津)电子有限公司 一种基于生产数据的文本生成系统
CN113378515B (zh) * 2021-08-16 2021-11-02 宜科(天津)电子有限公司 一种基于生产数据的文本生成系统
US20230335243A1 (en) * 2022-04-18 2023-10-19 GE Precision Healthcare LLC Pipeline for intelligent text annotation of medical reports via artificial intelligence based natural language processing workflows

Also Published As

Publication number Publication date
US20160321243A1 (en) 2016-11-03
EP3092581A1 (en) 2016-11-16
CN106104521B (zh) 2019-10-25
US10073830B2 (en) 2018-09-11
WO2015103695A1 (en) 2015-07-16
CA2973138A1 (en) 2015-07-16
EP3092581A4 (en) 2017-10-18
CA2973138C (en) 2020-06-16

Similar Documents

Publication Publication Date Title
CN106104521B (zh) 用于自动检测文本中的情感的系统、设备和方法
Alsayat Improving sentiment analysis for social media applications using an ensemble deep learning language model
Rehman et al. A hybrid CNN-LSTM model for improving accuracy of movie reviews sentiment analysis
Riaz et al. Opinion mining on large scale data using sentiment analysis and k-means clustering
US10496749B2 (en) Unified semantics-focused language processing and zero base knowledge building system
CN110612525A (zh) 通过使用交流话语树启用修辞分析
Kumar et al. Multi-input integrative learning using deep neural networks and transfer learning for cyberbullying detection in real-time code-mix data
Abdullah et al. Deep learning in sentiment analysis: Recent architectures
Vu et al. Nihrio at semeval-2018 task 3: A simple and accurate neural network model for irony detection in twitter
Paul et al. Focused domain contextual AI chatbot framework for resource poor languages
Aldabbas et al. Google play content scraping and knowledge engineering using natural language processing techniques with the analysis of user reviews
De Marchi et al. Hands-On Neural Networks: Learn how to build and train your first neural network model using Python
Pandey et al. Enhancing sentiment analysis using Roulette wheel selection based cuckoo search clustering method
Qureshi et al. Performance evaluation of machine learning models on large dataset of android applications reviews
Angamuthu et al. Integrating multi-criteria decision-making with hybrid deep learning for sentiment analysis in recommender systems
Arafat et al. Analyzing public emotion and predicting stock market using social media
Suresh Kumar et al. Sentiment lexicon for cross-domain adaptation with multi-domain dataset in Indian languages enhanced with BERT classification model
Matwin et al. Survey of generative methods for social media analysis
Matwin et al. Generative Methods for Social Media Analysis
Pradhan et al. A multichannel embedding and arithmetic optimized stacked Bi-GRU model with semantic attention to detect emotion over text data
Nguyen Digital Research Methods and the Diaspora: Assembling Transnational Networks with and Beyond Digital Data
Telenyk et al. Evaluation of the coherence of Polish texts using neural network models
Sharma et al. Weighted Ensemble LSTM Model with Word Embedding Attention for E-Commerce Product Recommendation
Roumeliotis et al. Precision-Driven Product Recommendation Software: Unsupervised Models, Evaluated by GPT-4 LLM for Enhanced Recommender Systems
Zou et al. A novel automated framework for fine-grained sentiment analysis of application reviews using deep neural networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Idaho

Applicant after: CLUEP Inc.

Address before: Idaho

Applicant before: Kluip American Holdings Co.,Ltd.

Address after: Ontario, Canada

Applicant after: CLUEP Inc.

Address before: Ontario, Canada

Applicant before: CLUEP Inc.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190417

Address after: Idaho

Applicant after: Kluip American Holdings Co.,Ltd.

Address before: Ontario, Canada

Applicant before: CLUEP Inc.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230712

Address after: Ontario, Canada

Patentee after: CLUEP Inc.

Address before: Idaho

Patentee before: CLUEP Inc.