CN111177308A - 一种文本内容的识别情绪方法 - Google Patents

一种文本内容的识别情绪方法 Download PDF

Info

Publication number
CN111177308A
CN111177308A CN201911237604.7A CN201911237604A CN111177308A CN 111177308 A CN111177308 A CN 111177308A CN 201911237604 A CN201911237604 A CN 201911237604A CN 111177308 A CN111177308 A CN 111177308A
Authority
CN
China
Prior art keywords
vocabulary
character
emotion
recognized
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911237604.7A
Other languages
English (en)
Other versions
CN111177308B (zh
Inventor
陆辰亮
姜洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yunqiao Information Technology Co Ltd
Original Assignee
Shanghai Yunqiao Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yunqiao Information Technology Co Ltd filed Critical Shanghai Yunqiao Information Technology Co Ltd
Priority to CN201911237604.7A priority Critical patent/CN111177308B/zh
Publication of CN111177308A publication Critical patent/CN111177308A/zh
Application granted granted Critical
Publication of CN111177308B publication Critical patent/CN111177308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本内容的识别情绪方法,包括:获取用户输入的文本内容信息;基于预先建立好的预设词汇数据库,抓取文本内容信息中的待识别词汇;基于预先建立好的情绪级别数据库,对所抓取的待识别词汇进行识别,并确定用户的情绪级别;根据情绪处理机制,向客服端发送与用户的情绪级别相应的预警信息。通过对用户的文本信息进行识别,来发送预警信息,进而有效的提高效率。

Description

一种文本内容的识别情绪方法
技术领域
本发明涉及智能识别技术领域,特别涉及一种文本内容的识别情绪方法。
背景技术
现阶段的在线客服分为人工客服与机器人客服,两者是分开接待的,一般机器人客服是作为晚间的接待存在的,人工客服是作为白天的接待存在的,但是,当两者同时在正常工作时间运行时无法快速切换,人工客服需要自行判定是否转接过来,当工作量大时,人工客服可能无法及时准确的将更需要人工处理的信息转接过来,可能会因为效率低下的原因,而遭到客户的投诉。
发明内容
本发明提供一种文本内容的识别情绪方法,用以通过对用户的文本信息进行识别,来发送预警信息,进而有效的提高效率。
本发明实施例提供一种文本内容的识别情绪方法,包括:
获取用户输入的文本内容信息;
基于预先建立好的预设词汇数据库,抓取所述文本内容信息中的待识别词汇;
基于预先建立好的情绪级别数据库,对所抓取的所述待识别词汇进行识别,并确定所述用户的情绪级别;
根据情绪处理机制,向所述客服端发送与所述用户的情绪级别相应的预警信息。
在一种可能实现的方式中,
所述预设词汇数据库包括:敏感词汇子数据库和语境词汇子数据库;
所述待识别词汇包括:敏感词汇和语境词汇。
在一种可能实现的方式中,
在抓取所述文本内容信息中的待识别词汇之前,包括:
将所述用户输入的所述文本内容信息生成文本图像;
识别所述文本图像中的每个字符的字符信息,并根据词汇组合数据库,对识别的每个所述字符信息进行字符组合处理;
基于所述文本图像,对字符组合处理后的字符组进行切割处理,生成预设数目个字符组图像;
通过所述预设词汇数据库,识别每个所述字符组图像,剔除不存在所述待识别词汇的字符组图像,保留存在所述待识别词汇的字符组图像;
并将所保留的所述字符组图像按照预先设定好的组合顺序进行重新组合,得到新的文本内容信息。
在一种可能实现的方式中,
在识别每个所述组合字符图像之前,还包括:
对所述组合字符图像进行图像缩放处理,使得图像缩放处理后的所述字符组合图像的图像像素在预设像素范围内;
且在对识别的每个所述字符信息进行字符组合处理的过程中,还包括:
基于所述文本内容信息,对每个所述字符进行预设标记;
对所述预设标记后的字符进行字符组合处理,同时将进行字符组合处理后的字符组按照预设间隔距离进行间隔标注。
在一种可能实现的方式中,
在获取用户输入的文本内容信息之后,还包括:
确定所述文本内容信息中的文本子区域对应的文本子图像的倾斜角度,当所述倾斜角度在预设角度范围之内时,开始获取所述文本子图像中对应的文本内容信息中的待纠正字符;
当所述倾斜角度在预设角度范围之外时,对所述文本子图像进行图像旋转处理,获得修正后的文本子图像,并开始获取所述文本子图像中对应的文本内容信息中的待纠正字符;
其中,在获取所述文本子图像中对应的文本内容信息中的待纠正字符之后,获取所述待纠错字符之前的第一字符组和所述待纠错字符之后的第二字符组;
确定所述待纠正字符与第一字符组的第一相关度、所述待纠正字符与第二字符组的第二相关度、所述待识别字符与所述第一字符组和第二字符组的第三相关度;
并根据确定的所述第一相关度、第二相关度和第三相关度之间的相似度,判断所述待纠错字符是否正确;
若正确,判定所述待纠错字符是正确字符,并对下一待纠错字符进行判断;
若错误,根据预先存储好的字符相似概率数据库,结合所述第一字符组和第二字符组,确定与所述待纠正字符的字符相似概率大于预设概率的待替换字符;
并将所述待纠错字符替换为待替换字符;
若结合所述第一字符组和第二字符组,未确定出与所述待纠正字符的字符相似概率大于预设概率的待替换字符时,
将所述待纠正字符存储到所述预先存储好的字符相似概率数据库中,同时,向所述客服端发送第一警示信息;
且所述客服端的客服人员根据所述第一警示信息执行相应的第一警示操作,并将所述第一警示操作信息作为所述待纠正字符的特征属性。
在一种可能实现的方式中,
建立预设词汇数据库的步骤包括:
采集训练文本中的预设词汇,并根据情绪分类器对所述预设词汇进行情绪分类,并在情绪分类后的所述预设词汇上标注相应的情绪标签;
将标注有相应情绪标签的预设词汇存储到预设数据库,并建立成预设词汇数据库。
在一种可能实现的方式中,
在确定所述用户的情绪级别的过程中包括:
根据所述预设词汇数据库,确定每个所述待识别词汇对应的情绪标签;
对所确定的待识别词汇对应的情绪标签进行情绪分类处理,确定所述待识别词汇中的情绪标签种类,并确定同类情绪标签对应的词汇数量;
判断所述情绪标签种类,和对应的词汇数量,来确定所述用户的情绪级别。
在一种可能实现的方式中,
在判断所述情绪标签种类,和对应的词汇数量,来确定所述用户的情绪级别的过程中还包括:
将所述情绪标签种类,按照词汇数量进行排列,并确定所述第一类情绪标签和第二类情绪标签之间的第一概率差值,同时确定所述第一类情绪标签中的每个所述待识别词汇之间的第二概率差值和确定所述第二类情绪标签中的每个所述待识别词汇之间的第三概率差值;
若所述第一概率差值和第二概率差值之间的第一差值绝对值小于预设差值绝对值,且所述第一概率差值和第三概率差值绝对值之间的第二差值绝对值小于预设差值绝对值时,将所述第二类情绪标签归为第一类情绪标签;
对所述第一类情绪标签对应的待识别词汇进行识别,确定所述用户的情绪级别。
在一种可能实现的方式中,
在基于预先建立好的情绪级别数据库,对所抓取的所述待识别词汇进行识别,并确定所述用户的情绪级别的过程中,还包括:确定所抓取的所述待识别词汇中的最终识别词汇,并构成词汇识别集,其步骤包括:
步骤A1:根据公式(1)确定所抓取的所述待识别词汇在对应的文本内容信息中的权重值wi
Figure BDA0002304882740000051
其中,i表示所抓取的n个待识别词汇中的第i个待识别词汇;n表示所抓取的待识别词汇的词汇总数;m表示对应的文本信息中的文本语段的总段数;j表示m个文本语段中的第j个文本语段;fji表示第i个待识别词汇在第j个文本语段中出现的词汇频率;f(j+1)i表示第i个待识别词汇在第j+1个文本语段中出现的词汇频率;f(j-1)i表示第i个待识别词汇在第j-1个文本语段中出现的词汇频率;np表示第p类文本情绪的词汇数量;g表示n个待识别词汇对应的情绪种类总数;p表示g类情绪种类中的第p类情绪种类;Ti表示第i个待识别词汇的情绪特征值;
步骤A2:根据公式(2)确定所述待识别词汇两两之间的相似度S;
Figure BDA0002304882740000052
其中,S(i+1)i表示第i个待识别词汇与第i+1个待识别词汇之间的相似度;βii表示第i个待识别词汇的词汇位置熵值;γ(i+1)i表示第i个待识别词汇与第i+1个待识别词汇之间的情绪匹配值;γ(i-1)i表示第i个待识别词汇与第i-1个待识别词汇之间的情绪匹配值;
步骤A3:基于所述步骤A1确定的权重值wi和所述步骤A2确定的相似度S,确定所述待识别词汇的词汇占比值Zi,并根据公式(3)对所述词汇占比值Z进行修正处理,得到词汇修正值Zi′;
Figure BDA0002304882740000053
其中,δi表示第i个待识别词汇的情绪修正因子;
Figure BDA0002304882740000054
表示函数
Figure BDA0002304882740000061
Figure BDA0002304882740000062
上可积;
Figure BDA0002304882740000063
Figure BDA0002304882740000064
为常数;
Figure BDA0002304882740000065
表示第i个待识别词汇与第i-1个待识别词汇之间的相似度修正变量;
步骤A4:根据所述步骤A3所得到的词汇修正值,判断所述词汇修正值对应的待识别词汇是否保留,当词汇修正值大于预设占比值时,将所述待识别词汇保留;
否则,将所述待识别词汇剔除;
其中,所保留的待识别词汇为最终识别词汇,并根据所保留的最终识别词汇,构成词汇识别集。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种文本内容的识别情绪方法的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种文本内容的识别情绪方法,如图1所述,包括:
步骤1:获取用户输入的文本内容信息;
步骤2:基于预先建立好的预设词汇数据库,抓取所述文本内容信息中的待识别词汇;
步骤3:基于预先建立好的情绪级别数据库,对所抓取的所述待识别词汇进行识别,并确定所述用户的情绪级别;
步骤4:根据情绪处理机制,向所述客服端发送与所述用户的情绪级别相应的预警信息。
上述获取用户输入的文本内容信息,可以是基于沟通交流界面获取的,如淘宝交流界面、京东交流界面等;
上述预设词汇数据库,是包括不同种类的词汇在内容,如敏感词汇、语境词汇等;
上述待括敏识别预设词汇,是包括敏感词汇或语境词汇在内的,其语境词汇,例如可以是订购机票,可知是购买场景等;
上述情绪级别,可以是高兴、生气、无奈等的情绪级别;
上述通过情绪处理机制,向客服端发送与用户的情绪级别相应的预警信息,其中,例如:当情绪级别为生气时,向人工客服进行预警提醒,其预警提醒,可以是,是否将机器人的接待方式转为人工客服接待,或者提醒客服端的客服存在不良情绪,需要降温处理,其好处是,避免客户升级情绪,降低被投诉的风险。
上述技术方案的有益效果是:通过对用户的文本信息进行识别,来发送预警信息,进而有效的提高效率。
本发明实施例提供一种文本内容的识别情绪方法,所述预设词汇数据库包括:敏感词汇子数据库和语境词汇子数据库;
所述待识别词汇包括:敏感词汇和语境词汇。
上述技术方案的有益效果是:便于抓取有效的待识别词汇,提高其的识别效率,提高及时预警的可靠性。
本发明实施例提供一种文本内容的识别情绪方法,
在抓取所述文本内容信息中的待识别词汇之前,包括:
将所述用户输入的所述文本内容信息生成文本图像;
识别所述文本图像中的每个字符的字符信息,并根据词汇组合数据库,对识别的每个所述字符信息进行字符组合处理;
基于所述文本图像,对字符组合处理后的字符组进行切割处理,生成预设数目个字符组图像;
通过所述预设词汇数据库,识别每个所述字符组图像,剔除不存在所述待识别词汇的字符组图像,保留存在所述待识别词汇的字符组图像;
并将所保留的所述字符组图像按照预先设定好的组合顺序进行重新组合,得到新的文本内容信息。
上述文本图像是文本内容信息对应区域的区域图像;
上述字符的字符信息,可以是对每个文字、字母、数字等的信息;
上述对每个字符信息进行字符组合处理,例如可以是将文本内容信息中的字母字符进行组合或者文本字符进行组合等;
其中,组合是根据用户输入的文本内容信息的先后顺序进行组合的,且是对文本内容信息中字符输入先后顺序的组合,如:用户输入:不满意该001号产品;其中,将001三个数字字符组合在一起;将不满意三个文字字符组合在一起等;
上述预设数目个字符组图像中的预设数目个是小于文内内容信息的字符个数的;
上述字符组图像,例如是001字符组图像;
上述将所保留的字符组图像按照预先设定好的组合顺序进行重新组合,得到新的文本内容信息,例如:“不满意该001号产品”中,剔除“该001号产品”字符组图像,得到新的文本内容信息为“不满意”,其中,“不满意”即为预设词汇。
上述技术方案的有益效果是:通过进行字符组合处理,便于获取完整的词汇信息,通过剔除不存在所述预设词汇的字符组图像,提高对文本内容进行识别的效率。
本发明实施例提供一种文本内容的识别情绪方法,
在识别每个所述组合字符图像之前,还包括:
对所述组合字符图像进行图像缩放处理,使得图像缩放处理后的所述字符组合图像的图像像素在预设像素范围内;
且在对识别的每个所述字符信息进行字符组合处理的过程中,还包括:
基于所述文本内容信息,对每个所述字符进行预设标记;
对所述预设标记后的字符进行字符组合处理,同时将进行字符组合处理后的字符组按照预设间隔距离进行间隔标注。
上述预设像素范围,是人为设定的;
上述进行预设标记,例如是按照对文本内容的输入先后顺序,分别进行下标表示,如,1、2、3等;
上述将字符组按照预设间隔距离进行间隔标注,例如是:对“不满意该001号产品”进行“不满意”、“该”、“001号产品”进行间隔,其预设间隔可设置在1-3个字符之间,便于节省存储空间,还可提高识别速度;
其中,间隔标注是对1-3个字符对应的间隔距离进行标注,便于对字符组进行识别和查找。
上述技术方案的有益效果是:通过进行图像缩放处理,便于提高对图像进行识别的高效性,通过对字符组进行预设间隔距离进行间隔标注,便于对字符组进行识别和查找。
本发明实施例提供一种文本内容的识别情绪方法,
在获取用户输入的文本内容信息之后,还包括:
确定所述文本内容信息中的文本子区域对应的文本子图像的倾斜角度,当所述倾斜角度在预设角度范围之内时,开始获取所述文本子图像中对应的文本内容信息中的待纠正字符;
当所述倾斜角度在预设角度范围之外时,对所述文本子图像进行图像旋转处理,获得修正后的文本子图像,并开始获取所述文本子图像中对应的文本内容信息中的待纠正字符;
其中,在获取所述文本子图像中对应的文本内容信息中的待纠正字符之后,获取所述待纠错字符之前的第一字符组和所述待纠错字符之后的第二字符组;
确定所述待纠正字符与第一字符组的第一相关度、所述待纠正字符与第二字符组的第二相关度、所述待识别字符与所述第一字符组和第二字符组的第三相关度;
并根据确定的所述第一相关度、第二相关度和第三相关度之间的相似度,判断所述待纠错字符是否正确;
若正确,判定所述待纠错字符是正确字符,并对下一待纠错字符进行判断;
若错误,根据预先存储好的字符相似概率数据库,结合所述第一字符组和第二字符组,确定与所述待纠正字符的字符相似概率大于预设概率的待替换字符;
并将所述待纠错字符替换为待替换字符;
若结合所述第一字符组和第二字符组,未确定出与所述待纠正字符的字符相似概率大于预设概率的待替换字符时,
将所述待纠正字符存储到所述预先存储好的字符相似概率数据库中,同时,向所述客服端发送第一警示信息;
且所述客服端的客服人员根据所述第一警示信息执行相应的第一警示操作,并将所述第一警示操作信息作为所述待纠正字符的特征属性。
上述文本子区域是文本内容信息中的一部分文字信息对应的区域;
上述倾斜角度是获取的文本子图像,基于直角坐标系的偏移角;
上述预设角度范围,可以0°—8°之间,避免过于倾斜,对文本子图像识别失败;
上述待纠正字符,是指可能存在书写错误的字符,例如:正确书写为:“不满意该001号产品”;当输入的内容为:“不满意该001耗产品”,其中“耗”为待纠错字符;
上述获取待纠错字符之前的第一字符组和待纠错字符之后的第二字符组;例如:“不满意该001耗产品”中“不满意该001”是第一字符组,“产品”第二字符组,且当不存在第一字符组时,只获取第二字符组,当不存在第二字符组时,只获取第一字符组,当既不存在第一字符组,又不存在第二字符组时,控制机器人客服工作;
上述相似度,是指第一字符组、待纠字符和第二字符祖之间的联系;
上述待替换字符,表示的是正确的字符;
上述预设概率为90%及以上,确保待替换字符的准确性;
上述将待纠正字符存储到所述预先存储好的字符相似概率数据库中,是为了增加样本容量,向客服端发送第一警示信息,是为了及时提醒;
其中,第一警示信息,例如是,未确定出待替换字符;
上述对应的第一警示操作,例如是人为对该待纠正字符进行纠正,并将其待纠正字符和纠正后的字符同时存储,其待纠正字符的特征属性即为纠正后的字符。
上述技术方案的有益效果是:通过对文字子图像进行修正,便于对文本内容进行识别,提高识别正确的可能性,通过对待纠正字符进行纠错,便于提高对用户情绪级别判断的准确性,避免出现被投诉的情况。
本发明实施例提供一种文本内容的识别情绪方法,
建立预设词汇数据库的步骤包括:
采集训练文本中的预设词汇,并根据情绪分类器对所述预设词汇进行情绪分类,并在情绪分类后的所述预设词汇上标注相应的情绪标签;
将标注有相应情绪标签的预设词汇存储到预设数据库,并建立成预设词汇数据库。
上述情绪分类器,是预先训练好的;
上述情绪标签,可以为:不满意、满意等的情绪标签。
上述技术方案的有益效果是:通过对预设词汇进行情绪标签,进一步提高对用户情绪进行情绪级别确定的准确性。
本发明实施例提供一种文本内容的识别情绪方法,
在确定所述用户的情绪级别的过程中包括:
根据所述预设词汇数据库,确定每个所述待识别词汇对应的情绪标签;
对所确定的待识别词汇对应的情绪标签进行情绪分类处理,确定所述待识别词汇中的情绪标签种类,并确定同类情绪标签对应的词汇数量;
判断所述情绪标签种类,和对应的词汇数量,来确定所述用户的情绪级别。
例如:当文本内容信息中,存在有两种情绪标签种类,且不满意情绪标签种类对应的词汇数量为3个,满意情绪标签种类对应的词汇数量为1个,此时,判定为用户的情绪级别为不满意级别,需要机器人转人工客服。
上述技术方案的有益效果是:通过对情绪标签进行分类,且确定分类的情绪标签对应的词汇数量,便于提高对用户情绪级别的确定。
本发明实施例提供一种文本内容的识别情绪方法,
在判断所述情绪标签种类,和对应的词汇数量,来确定所述用户的情绪级别的过程中还包括:
将所述情绪标签种类,按照词汇数量进行排列,并确定所述第一类情绪标签和第二类情绪标签之间的第一概率差值,同时确定所述第一类情绪标签中的每个所述待识别词汇之间的第二概率差值和确定所述第二类情绪标签中的每个所述待识别词汇之间的第三概率差值;
若所述第一概率差值和第二概率差值之间的第一差值绝对值小于预设差值绝对值,且所述第一概率差值和第三概率差值绝对值之间的第二差值绝对值小于预设差值绝对值时,将所述第二类情绪标签归为第一类情绪标签;
对所述第一类情绪标签对应的待识别词汇进行识别,确定所述用户的情绪级别。
例如,当不满意情绪标签种类对应的词汇数量有3个,满意情绪标签种类对应的词汇数量有5个时,确定其不满意情绪标签与满意情绪标签之间的第一概率差值,例如:第一概率差值为a;满意情绪标签中的5个待识别词汇之间的第二概率差值b,和满意情绪标签中的3个待识别词汇第三概率差值c;
上述预设差值绝对值是人为设定的;
上述将第二类情绪标签归为第一类情绪标签,如将不满意情绪标签归为满意情绪标签。
上述技术方案的有益效果是:通过对分类后的情绪标签进行判断,确定情绪标签是否可以归为一类,提高确定用户情绪级别的智能化,进而提高处理效率。
本发明实施例提供一种文本内容的识别情绪方法,
在基于预先建立好的情绪级别数据库,对所抓取的所述待识别词汇进行识别,并确定所述用户的情绪级别的过程中,还包括:确定所抓取的所述待识别词汇中的最终识别词汇,并构成词汇识别集,其步骤包括:
步骤A1:根据公式(1)确定所抓取的所述待识别词汇在对应的文本内容信息中的权重值wi
Figure BDA0002304882740000141
其中,i表示所抓取的n个待识别词汇中的第i个待识别词汇;n表示所抓取的待识别词汇的词汇总数;m表示对应的文本信息中的文本语段的总段数;j表示m个文本语段中的第j个文本语段;fji表示第i个待识别词汇在第j个文本语段中出现的词汇频率;f(j+1)i表示第i个待识别词汇在第j+1个文本语段中出现的词汇频率;f(j-1)i表示第i个待识别词汇在第j-1个文本语段中出现的词汇频率;np表示第p类文本情绪的词汇数量;g表示n个待识别词汇对应的情绪种类总数;p表示g类情绪种类中的第p类情绪种类;Ti表示第i个待识别词汇的情绪特征值;
步骤A2:根据公式(2)确定所述待识别词汇两两之间的相似度S;
Figure BDA0002304882740000142
其中,S(i+1)i表示第i个待识别词汇与第i+1个待识别词汇之间的相似度;βii表示第i个待识别词汇的词汇位置熵值;γ(i+1)i表示第i个待识别词汇与第i+1个待识别词汇之间的情绪匹配值;γ(i-1)i表示第i个待识别词汇与第i-1个待识别词汇之间的情绪匹配值;
步骤A3:基于所述步骤A1确定的权重值wi和所述步骤A2确定的相似度S,确定所述待识别词汇的词汇占比值Zi,并根据公式(3)对所述词汇占比值Z进行修正处理,得到词汇修正值Zi′;
Figure BDA0002304882740000143
其中,δi表示第i个待识别词汇的情绪修正因子;
Figure BDA0002304882740000144
表示函数
Figure BDA0002304882740000151
Figure BDA0002304882740000152
上可积;
Figure BDA0002304882740000153
Figure BDA0002304882740000154
为常数;
Figure BDA0002304882740000155
表示第i个待识别词汇与第i-1个待识别词汇之间的相似度修正变量;
步骤A4:根据所述步骤A3所得到的词汇修正值,判断所述词汇修正值对应的待识别词汇是否保留,当词汇修正值大于预设占比值时,将所述待识别词汇保留;
否则,将所述待识别词汇剔除;
其中,所保留的待识别词汇为最终识别词汇,并根据所保留的最终识别词汇,构成词汇识别集。
上述技术方案的有益效果是:通过公式(1)和(2)对抓取的待识别词汇进行权重值和相似度的判断,可有效确定对待识别词汇进行保留,还是剔除,可以有效的提高待识别词汇的识别精度,还可提高识别的处理效率,且通过词汇识别集,不仅方便对词汇进行集中识别,提高识别的效率,还可将其词汇作为预设词汇数据库中的样本词汇,提高其的样本容量,进一步提高了确定用户情绪等级的准确性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种文本内容的识别情绪方法,其特征在于,包括:
获取用户输入的文本内容信息;
基于预先建立好的预设词汇数据库,抓取所述文本内容信息中的待识别词汇;
基于预先建立好的情绪级别数据库,对所抓取的所述待识别词汇进行识别,并确定所述用户的情绪级别;
根据情绪处理机制,向所述客服端发送与所述用户的情绪级别相应的预警信息。
2.如权利要求1所述的识别情绪方法,其特征在于,
所述预设词汇数据库包括:敏感词汇子数据库和语境词汇子数据库;
所述待识别词汇包括:敏感词汇和语境词汇。
3.如权利要求1所述的识别情绪方法,其特征在于,在抓取所述文本内容信息中的待识别词汇之前,包括:
将所述用户输入的所述文本内容信息生成文本图像;
识别所述文本图像中的每个字符的字符信息,并根据词汇组合数据库,对识别的每个所述字符信息进行字符组合处理;
基于所述文本图像,对字符组合处理后的字符组进行切割处理,生成预设数目个字符组图像;
通过所述预设词汇数据库,识别每个所述字符组图像,剔除不存在所述待识别词汇的字符组图像,保留存在所述待识别词汇的字符组图像;
并将所保留的所述字符组图像按照预先设定好的组合顺序进行重新组合,得到新的文本内容信息。
4.如权利要求3所述的识别情绪方法,其特征在于,在识别每个所述组合字符图像之前,还包括:
对所述组合字符图像进行图像缩放处理,使得图像缩放处理后的所述字符组合图像的图像像素在预设像素范围内;
且在对识别的每个所述字符信息进行字符组合处理的过程中,还包括:
基于所述文本内容信息,对每个所述字符进行预设标记;
对所述预设标记后的字符进行字符组合处理,同时将进行字符组合处理后的字符组按照预设间隔距离进行间隔标注。
5.如权利要求1所述的识别情绪方法,其特征在于,在获取用户输入的文本内容信息之后,还包括:
确定所述文本内容信息中的文本子区域对应的文本子图像的倾斜角度,当所述倾斜角度在预设角度范围之内时,开始获取所述文本子图像中对应的文本内容信息中的待纠正字符;
当所述倾斜角度在预设角度范围之外时,对所述文本子图像进行图像旋转处理,获得修正后的文本子图像,并开始获取所述文本子图像中对应的文本内容信息中的待纠正字符;
其中,在获取所述文本子图像中对应的文本内容信息中的待纠正字符之后,获取所述待纠错字符之前的第一字符组和所述待纠错字符之后的第二字符组;
确定所述待纠正字符与第一字符组的第一相关度、所述待纠正字符与第二字符组的第二相关度、所述待识别字符与所述第一字符组和第二字符组的第三相关度;
并根据确定的所述第一相关度、第二相关度和第三相关度之间的相似度,判断所述待纠错字符是否正确;
若正确,判定所述待纠错字符是正确字符,并对下一待纠错字符进行判断;
若错误,根据预先存储好的字符相似概率数据库,结合所述第一字符组和第二字符组,确定与所述待纠正字符的字符相似概率大于预设概率的待替换字符;
并将所述待纠错字符替换为待替换字符;
若结合所述第一字符组和第二字符组,未确定出与所述待纠正字符的字符相似概率大于预设概率的待替换字符时,
将所述待纠正字符存储到所述预先存储好的字符相似概率数据库中,同时,向所述客服端发送第一警示信息;
且所述客服端的客服人员根据所述第一警示信息执行相应的第一警示操作,并将所述第一警示操作信息作为所述待纠正字符的特征属性。
6.如权利要求1所述的识别情绪方法,其特征在于,建立预设词汇数据库的步骤包括:
采集训练文本中的预设词汇,并根据情绪分类器对所述预设词汇进行情绪分类,并在情绪分类后的所述预设词汇上标注相应的情绪标签;
将标注有相应情绪标签的预设词汇存储到预设数据库,并建立成预设词汇数据库。
7.如权利要求1所述的识别情绪方法,其特征在于,在确定所述用户的情绪级别的过程中包括:
根据所述预设词汇数据库,确定每个所述待识别词汇对应的情绪标签;
对所确定的待识别词汇对应的情绪标签进行情绪分类处理,确定所述待识别词汇中的情绪标签种类,并确定同类情绪标签对应的词汇数量;
判断所述情绪标签种类,和对应的词汇数量,来确定所述用户的情绪级别。
8.如权利要求7所述的识别情绪方法,其特征在于,在判断所述情绪标签种类,和对应的词汇数量,来确定所述用户的情绪级别的过程中还包括:
将所述情绪标签种类,按照词汇数量进行排列,并确定所述第一类情绪标签和第二类情绪标签之间的第一概率差值,同时确定所述第一类情绪标签中的每个所述待识别词汇之间的第二概率差值和确定所述第二类情绪标签中的每个所述待识别词汇之间的第三概率差值;
若所述第一概率差值和第二概率差值之间的第一差值绝对值小于预设差值绝对值,且所述第一概率差值和第三概率差值绝对值之间的第二差值绝对值小于预设差值绝对值时,将所述第二类情绪标签归为第一类情绪标签;
对所述第一类情绪标签对应的待识别词汇进行识别,确定所述用户的情绪级别。
9.如权利要求1所述的识别情绪方法,其特征在于,在基于预先建立好的情绪级别数据库,对所抓取的所述待识别词汇进行识别,并确定所述用户的情绪级别的过程中,还包括:确定所抓取的所述待识别词汇中的最终识别词汇,并构成词汇识别集,其步骤包括:
步骤A1:根据公式(1)确定所抓取的所述待识别词汇在对应的文本内容信息中的权重值wi
Figure FDA0002304882730000041
其中,i表示所抓取的n个待识别词汇中的第i个待识别词汇;n表示所抓取的待识别词汇的词汇总数;m表示对应的文本信息中的文本语段的总段数;j表示m个文本语段中的第j个文本语段;fji表示第i个待识别词汇在第j个文本语段中出现的词汇频率;f(j+1)i表示第i个待识别词汇在第j+1个文本语段中出现的词汇频率;f(j-1)i表示第i个待识别词汇在第j-1个文本语段中出现的词汇频率;np表示第p类文本情绪的词汇数量;g表示n个待识别词汇对应的情绪种类总数;p表示g类情绪种类中的第p类情绪种类;Ti表示第i个待识别词汇的情绪特征值;
步骤A2:根据公式(2)确定所述待识别词汇两两之间的相似度S;
Figure FDA0002304882730000042
其中,S(i+1)i表示第i个待识别词汇与第i+1个待识别词汇之间的相似度;βii表示第i个待识别词汇的词汇位置熵值;γ(i+1)i表示第i个待识别词汇与第i+1个待识别词汇之间的情绪匹配值;γ(i-1)i表示第i个待识别词汇与第i-1个待识别词汇之间的情绪匹配值;
步骤A3:基于所述步骤A1确定的权重值wi和所述步骤A2确定的相似度S,确定所述待识别词汇的词汇占比值Zi,并根据公式(3)对所述词汇占比值Z进行修正处理,得到词汇修正值Zi′;
Figure FDA0002304882730000051
其中,δi表示第i个待识别词汇的情绪修正因子;
Figure FDA0002304882730000052
表示函数
Figure FDA0002304882730000053
Figure FDA0002304882730000054
上可积;
Figure FDA0002304882730000055
Figure FDA0002304882730000056
为常数;
Figure FDA0002304882730000057
表示第i个待识别词汇与第i-1个待识别词汇之间的相似度修正变量;
步骤A4:根据所述步骤A3所得到的词汇修正值,判断所述词汇修正值对应的待识别词汇是否保留,当词汇修正值大于预设占比值时,将所述待识别词汇保留;
否则,将所述待识别词汇剔除;
其中,所保留的待识别词汇为最终识别词汇,并根据所保留的最终识别词汇,构成词汇识别集。
CN201911237604.7A 2019-12-05 2019-12-05 一种文本内容的识别情绪方法 Active CN111177308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911237604.7A CN111177308B (zh) 2019-12-05 2019-12-05 一种文本内容的识别情绪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911237604.7A CN111177308B (zh) 2019-12-05 2019-12-05 一种文本内容的识别情绪方法

Publications (2)

Publication Number Publication Date
CN111177308A true CN111177308A (zh) 2020-05-19
CN111177308B CN111177308B (zh) 2023-07-18

Family

ID=70656181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911237604.7A Active CN111177308B (zh) 2019-12-05 2019-12-05 一种文本内容的识别情绪方法

Country Status (1)

Country Link
CN (1) CN111177308B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739516A (zh) * 2020-06-19 2020-10-02 中国—东盟信息港股份有限公司 一种针对智能客服通话的语音识别系统
CN112035634A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 文本情绪检测方法、装置、设备及存储介质
CN113254595A (zh) * 2021-06-22 2021-08-13 北京沃丰时代数据科技有限公司 闲聊识别方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750672A (zh) * 2013-12-27 2015-07-01 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN107784034A (zh) * 2016-08-31 2018-03-09 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN108095740A (zh) * 2017-12-20 2018-06-01 姜涵予 一种用户情绪评估方法和装置
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109146610A (zh) * 2018-07-16 2019-01-04 众安在线财产保险股份有限公司 一种智能保险推荐方法、装置及智能保险机器人设备
CN109767787A (zh) * 2019-01-28 2019-05-17 腾讯科技(深圳)有限公司 情绪识别方法、设备及可读存储介质
CN109766538A (zh) * 2018-11-21 2019-05-17 北京捷通华声科技股份有限公司 一种文本纠错方法、装置、电子设备以及存储介质
CN110136723A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 基于语音信息的数据处理方法及装置
CN110379445A (zh) * 2019-06-20 2019-10-25 深圳壹账通智能科技有限公司 基于情绪分析的业务处理方法、装置、设备及存储介质
CN110472023A (zh) * 2019-07-10 2019-11-19 深圳追一科技有限公司 客服切换方法、装置、计算机设备和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750672A (zh) * 2013-12-27 2015-07-01 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
CN107784034A (zh) * 2016-08-31 2018-03-09 北京搜狗科技发展有限公司 页面类别识别方法及装置、用于页面类别识别的装置
CN108095740A (zh) * 2017-12-20 2018-06-01 姜涵予 一种用户情绪评估方法和装置
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109146610A (zh) * 2018-07-16 2019-01-04 众安在线财产保险股份有限公司 一种智能保险推荐方法、装置及智能保险机器人设备
CN109766538A (zh) * 2018-11-21 2019-05-17 北京捷通华声科技股份有限公司 一种文本纠错方法、装置、电子设备以及存储介质
CN109767787A (zh) * 2019-01-28 2019-05-17 腾讯科技(深圳)有限公司 情绪识别方法、设备及可读存储介质
CN110136723A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 基于语音信息的数据处理方法及装置
CN110379445A (zh) * 2019-06-20 2019-10-25 深圳壹账通智能科技有限公司 基于情绪分析的业务处理方法、装置、设备及存储介质
CN110472023A (zh) * 2019-07-10 2019-11-19 深圳追一科技有限公司 客服切换方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王东等: "情绪波动方程下微信息推介演变模型", 《沈阳工业大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739516A (zh) * 2020-06-19 2020-10-02 中国—东盟信息港股份有限公司 一种针对智能客服通话的语音识别系统
CN112035634A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 文本情绪检测方法、装置、设备及存储介质
CN113254595A (zh) * 2021-06-22 2021-08-13 北京沃丰时代数据科技有限公司 闲聊识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111177308B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN109376658B (zh) 一种基于深度学习的ocr方法
CN111177308A (zh) 一种文本内容的识别情绪方法
US20060291692A1 (en) Information processing apparatus having learning function for character dictionary
CN112232241A (zh) 一种行人重识别方法、装置、电子设备和可读存储介质
US10977782B2 (en) Method of sorting baggage at an airport with optimized video-encoding
US11023720B1 (en) Document parsing using multistage machine learning
KR20010030737A (ko) 우편물에 대한 배달 정보를 인식하기 위한 방법 및 장치
CN110796210A (zh) 一种标签信息的识别方法及装置
JP4855698B2 (ja) 宛先認識装置
US9323998B2 (en) Method for identifying postal mailings
CN114758341A (zh) 一种智能化合同图像识别与合同要素抽取方法及装置
Daher et al. Multipage administrative document stream segmentation
JP2003505770A (ja) アドレスの自動読出しのための辞書の形成および/または更新のための方法
CN110728240A (zh) 一种对电子卷宗的标题自动识别的方法及装置
US11097316B2 (en) Sorting system, recognition support apparatus, recognition support method, and recognition support program
CN110543812A (zh) 信息提取方法及装置、电子设备及存储介质
EP4167106A1 (en) Method and apparatus for data structuring of text
US10235564B2 (en) Delivery handling apparatus, delivery handling method, and delivery handling program
US6373982B1 (en) Process and equipment for recognition of a pattern on an item presented
JP5178851B2 (ja) 宛先認識装置
US6993155B1 (en) Method for reading document entries and addresses
Berg et al. Application of optical character recognition with Tesseract in logistics management
JP7143488B2 (ja) 配達物処理装置、配達物処理方法、及び配達物処理プログラム
JPH11179289A (ja) 郵便物区分装置
CN116152838A (zh) 印章识别方法、装置、计算机可读存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant