CN111680499A - 基于自然语言处理的物品应用分析方法及系统 - Google Patents

基于自然语言处理的物品应用分析方法及系统 Download PDF

Info

Publication number
CN111680499A
CN111680499A CN202010518566.9A CN202010518566A CN111680499A CN 111680499 A CN111680499 A CN 111680499A CN 202010518566 A CN202010518566 A CN 202010518566A CN 111680499 A CN111680499 A CN 111680499A
Authority
CN
China
Prior art keywords
information
dialogue
data
communication data
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010518566.9A
Other languages
English (en)
Other versions
CN111680499B (zh
Inventor
崔亿萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qiyun Digital Technology Co ltd
Original Assignee
Beijing Qiyun Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qiyun Digital Technology Co ltd filed Critical Beijing Qiyun Digital Technology Co ltd
Priority to CN202010518566.9A priority Critical patent/CN111680499B/zh
Publication of CN111680499A publication Critical patent/CN111680499A/zh
Application granted granted Critical
Publication of CN111680499B publication Critical patent/CN111680499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Toxicology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据处理技术领域,具体提供了一种基于自然语言处理的物品应用分析方法及系统,旨在解决如何准确且高效地对海量繁杂的用户交流数据进行物品应用分析,以确定目标物品的应用状态的技术问题。为此目的,根据本发明一个实施例的方法,首先对交流数据中的每句对话信息进行对话序号以及唯一标识符设置;然后对每句对话信息进行数据清洗,随后根据对话序号与唯一标识符将数据清洗后的对话信息重新组合还原成交流数据;最后根据神经网络分类模型对还原后的交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。通过上述步骤,能够从关于物品的交流数据中准确且快速地识别出当前物品的推荐类别,进而得出物品的应用状态。

Description

基于自然语言处理的物品应用分析方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于自然语言处理的物品应用分析方法及系统。
背景技术
目前传统的物品如药品应用分析主要是根据物品供应量的变化趋势来分析当前物品的应用状态,然而除了物品供应量等数据,物品相关用户之间关于物品的交流数据也是物品应用分析的重要因素。通过分析用户的交流数据,能够准确了解用户对某个物品的应用态度(例如:推荐或不推荐),进而了解当前物品的应用状态。但是针对海量繁杂的用户交流数据,如果采用人工分析的方式对每个用户交流数据中的每个对话信息进行逐一分析判断用户对某个物品的应用态度,不仅费时费力,效率低下,还极易降低物品应用分析的准确性。
相应地,本领域需要一种新的物品应用分析方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何准确且高效地对海量繁杂的用户交流数据进行物品应用分析,以确定目标物品的应用状态的技术问题的基于自然语言处理的物品应用分析方法及系统。
第一方面,提供一种基于自然语言处理的物品应用分析方法,该方法包括:
获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;
根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;
对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;
根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。
在上述基于自然语言处理的物品应用分析方法的一个技术方案中,所述获取每个交流数据的特征信息,具体包括:
获取每个交流数据的来源信息;
判断是否存在具有相同来源信息的交流数据;
若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;
若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;
并且/或者,
所述对每个交流数据中的对话信息进行数据清洗,具体包括:
清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;
获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。
在上述基于自然语言处理的物品应用分析方法的一个技术方案中,当所述物品是药品时,所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:
获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;
获取所述第一目标对话信息的交流对象标识符;
若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;
若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;
并且/或者,
所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:
获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;
基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;
根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。
在上述基于自然语言处理的物品应用分析方法的一个技术方案中,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;
所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;
所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;
所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;
所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。
在上述基于自然语言处理的物品应用分析方法的一个技术方案中,还包括:
所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:
Tfidf(w)=tf(d,w)×idf(w)
其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;
若所述第w个词语是目标物品的相关词语,则
Figure BDA0002531054250000041
Figure BDA0002531054250000042
若所述第w个词语不是目标物品的相关词语,则
Figure BDA0002531054250000043
所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。
第二方面,提供一种基于自然语言处理的物品应用分析系统,该系统包括:
交流数据获取装置,其被配置成获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;
第一数据处理装置,其被配置成根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;
第二数据处理装置,其被配置成对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;
物品应用分析装置,其被配置成根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。
在上述基于自然语言处理的物品应用分析系统的一个技术方案中,所述第一数据处理装置包括特征信息获取模块,和/或所述第二数据处理模块包括数据清洗模块;
所述特征信息获取模块被配置成执行以下操作:
获取每个交流数据的来源信息;
判断是否存在具有相同来源信息的交流数据;
若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;
若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;
所述数据清洗模块被配置成执行以下操作:
清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;
获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。
在上述基于自然语言处理的物品应用分析系统的一个技术方案中,所述物品应用分析装置包括第一物品应用分析模块和/或第二物品应用分析模块;
所述第一物品应用分析模块被配置成当物品是药品时执行以下操作:
获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;
获取所述第一目标对话信息的交流对象标识符;
若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;
若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;
所述第二物品应用分析模块被配置成执行以下操作:
获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;
基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;
根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。
在上述基于自然语言处理的物品应用分析系统的一个技术方案中,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;
所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;
所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;
所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;
所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。
在上述基于自然语言处理的物品应用分析系统的一个技术方案中,还包括:
所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:
Tfidf(w)=tf(d,w)×idf(w)
其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;
若所述第w个词语是目标物品的相关词语,则
Figure BDA0002531054250000071
Figure BDA0002531054250000072
若所述第w个词语不是目标物品的相关词语,则
Figure BDA0002531054250000073
所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的技术方案中,可以基于自然语言处理(Natural LanguageProcessing,NLP)技术对海量繁杂的用户交流数据进行精准地物品应用状态分析。具体而言,根据本发明一个实施例的基于自然语言处理的物品应用分析方法,首先对预先获取到的交流数据中的每句对话信息进行对话序号以及唯一标识符设置,对话序号能够表示不同对话信息之间的交流顺序,唯一标识符能够表示当前对话信息是否属于同一个交流数据。然后,对每个交流数据中的每句对话信息进行数据清洗,随后获取在数据清洗后的对话信息中具有相同唯一标识符的对话信息,根据对话序号对这些具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数。换言之,根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据(经过数据清洗后的交流数据)。最后,根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。例如:若识别出目标物品的推荐类别是“推荐”,则可以输出目标物品的应用状态是“被推荐使用”;若识别出目标物品的推荐类别是“不推荐”,则可以输出目标物品的应用状态是“不被推荐使用”。通过上述步骤,本发明实施例能够从用户关于物品的交流数据中准确且快速地识别出当前物品的推荐类别(例如:推荐或不推荐),进而准确得出当前物品的应用状态。
附图说明
下面参照附图来描述本发明的具体实施方式,附图中:
图1是根据本发明的一个实施例的基于自然语言处理的物品应用分析方法的主要步骤示意图;
图2是根据本发明的一个实施例的基于自然语言处理的物品应用分析系统的主要结构框图;
附图标记列表:
11:交流数据获取装置;12:第一数据处理装置;13:第二数据处理装置;14:物品应用分析装置。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“装置”、“处理器”可以包括硬件、软件或者两者的组合。一个装置可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
现有技术中传统的物品应用分析方法主要是根据物品供应量的变化趋势来分析当前物品的应用状态,并不涉及根据物品相关用户之间关于物品的交流数据来分析物品应用状态的内容。此外,针对海量繁杂的用户交流数据,如果采用人工分析的方式对每个用户交流数据中的每个对话信息进行逐一分析判断用户对某个物品的应用态度,不仅费时费力,效率低下,还极易降低物品应用分析的准确性。
在本发明实施例中可以基于自然语言处理(Natural Language Processing,NLP)技术对海量繁杂的用户交流数据进行精准地物品应用状态分析。具体而言,根据本发明一个实施例的基于自然语言处理的物品应用分析方法,首先对预先获取到的交流数据(包含目标物品的交流对象的交流数据,例如包含某个药品的医患交流数据)中的每句对话信息进行对话序号以及唯一标识符设置,对话序号能够表示不同对话信息之间的交流顺序,唯一标识符能够表示当前对话信息是否属于同一个交流数据。然后,对每个交流数据中的每句对话信息进行数据清洗,随后获取在数据清洗后的对话信息中具有相同唯一标识符的对话信息,根据对话序号对这些具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数。换言之,根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据(经过数据清洗后的交流数据)。最后,根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。例如:若识别出目标物品的推荐类别是“推荐”,则可以输出目标物品的应用状态是“被推荐使用”;若识别出目标物品的推荐类别是“不推荐”,则可以输出目标物品的应用状态是“不被推荐使用”。通过上述步骤,本发明实施例能够从用户关于物品的交流数据中准确且快速地识别出当前物品的推荐类别(例如:推荐或不推荐),进而准确得出当前物品的应用状态。
在一个应用场景的例子中,终端上登录安装了根据本发明一个实施例的基于自然语言处理的物品应用分析方法构建的APP,用户通过终端登录该APP,开启药品应用分析处理的页面。用户可以根据自身对搜索医患交流数据尤其是某个药品的医患交流数据的需求,选择对应的菜单/按钮等控件或者输入需要搜索的关键词等,进入对应的被选择的菜单/按钮等控件的页面或者进一步搜索的页面。针对该页面上提示的各种药品名称或者录入需要分析的药品名称,根据用户交互选择或输入的信息,通过本发明一个实施例的物品应用分析方法,对目标药品相关的医患交流数据进行分析处理,包括交流数据中的每句对话信息进行对话序号以及唯一标识符设置、根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据、根据预设的神经网络分类模型对还原后的交流数据进行目标药品推荐类别识别,以获得目标药品的推荐类别,并以对应的方式输出显示在APP的输出结果页面上,作为搜索分析的结果提供给用户。
参阅附图1,图1是根据本发明的一个实施例的基于自然语言处理的物品应用分析方法的主要步骤流程示意图。如图1所示,本发明实施例中基于自然语言处理的物品应用分析方法可以包括以下步骤:
步骤S101:获取与目标物品相关的交流对象的交流数据。
交流对象的交流数据指的是,不同交流对象进行互动时由每个交流对象各自对应的对话信息组成的交互数据,该交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息。
一个例子:交流数据是从预设的诊疗平台上采集到的医生与患者之间关于麝香保心丸的一段交流数据,具体内容如下:
医生:可以服用麝香保心丸。
患者:已经服用三个月症状依然没有减轻。
医生:可将麝香保心丸替换成通心络。
其中,上述交流数据中的交流对象标识包括医生和患者,医生对应有两个对话信息,患者对应有一个对话信息。
步骤S102:生成在每个交流数据中每句对话信息各自对应的对话序号,以及分别设置在每个交流数据中每句对话信息各自对应的唯一标识符。对话序号指的是能够表示每句对话信息在其所属的交流数据中的交流顺序的信息。唯一标识符指的是能够表示每句对话信息具体属于哪一个交流数据的信息。
1、对话序号
在本实施例中可以按照以下步骤生成对话序号:获取交流数据中每句对话信息各自对应的交流顺序,根据每句对话信息各自对应的交流顺序,生成在每个交流数据中每句对话信息各自对应的对话序号。
一个实施方式中,如果交流数据包含有每句对话信息的发表时间,则将该发表时间的先后顺序作为对话信息的交流顺序。对话信息的发表时间可以是由交流数据的提供方(例如:医患交流数据的提供方可以是诊疗平台)在采集到交流对象输入对话信息时随该对话信息同时存储的时间信息。一个例子:交流数据是从预设的诊疗平台上采集到的医生与患者之间关于麝香保心丸的一段交流数据,具体内容如下:
医生(2020-06-01/14:00):可以服用麝香保心丸。
患者(2020-06-01/14:02):已经服用三个月症状没有减轻。
医生(2020-06-01/14:05):可将麝香保心丸替换成通心络。
其中,上述交流数据中的“2020-06-01/14:00”等信息就是每句对话信息的发表时间。
一个实施方式中,如果交流数据的提供方(例如:医患交流数据的提供方可以是诊疗平台)是以交流对象之间的先后交流顺序显示/存储每个交流对象各自对应的对话信息,则可以按照交流对象之间的先后交流顺序对一段交流数据中的对话信息进行逐个采集,进而将每句对话信息各自对应的信息采集顺序作为每句对话信息各自对应的交流顺序。
2、唯一标识符
在本实施例中可以按照以下步骤生成唯一标识符:获取每个交流数据的特征信息并根据特征信息分别设置在每个交流数据中每句对话信息各自对应的唯一标识符。交流数据的特征信息指的是,能够清楚表明当前交流数据具体是哪一个的交流数据的信息。
在一个实施方式中,可以根据交流数据的来源信息获取其特征信息。交流数据的来源信息指的是,能够清楚表明当前交流数据是从哪里采集到的,也即当前交流数据是在哪里提供的。一个例子:交流数据的来源信息可以是交流数据的网络链接,根据该网络链接可以在互联网平台上直接访问到交流数据。
具体而言,可以按照以下步骤获取交流数据的特征信息:
步骤11:获取当前包含目标物品的每个交流数据的来源信息。
步骤12:判断是否存在具有相同来源信息的交流数据。若存在具有相同来源信息的交流数据,则转至步骤13;若不存在具有相同来源信息的交流数据,则转至步骤14。
步骤13:获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息。在本实施方式中,如果交流数据是医生与患者关于某个药品的交流数据,那么交流对象的对象特征包括但不限于:医生的姓名、医生工作的医院和科室等。
一个例子:如果根据一个网络链接L可以在互联网平台上直接访问到两段不同的交流数据a和b,那么可以分别获取这两段交流数据中的对象特征如对象特征A和对象特征B,然后对网络链接L与对象特征A进行信息组合并将组合结果L+A作为交流数据a的特征信息,对网络链接L与对象特征B进行信息组合并将组合结果L+B作为交流数据b的特征信息。
步骤14:直接将来源信息作为交流数据的特征信息。
通过基于交流数据的来源信息进行信息设置的方式,设置交流数据中每句对话信息的唯一标识符,不仅有利于在对海量的交流数据进行同步分析时准确区分每句对话信息,还能够在后续数据处理如数据清洗过程中当发生数据缺失/错乱等问题时根据来源信息快速访问/重新获取交流数据提供方中原始的对话信息。
步骤S103:对每句对话信息进行数据清洗,随后获取具有相同唯一标识符的对话信息,根据对话序号对所述对话信息进行排序并根据排序结果生成待处理交流数据,即根据对话信息的对话序号以及唯一标识符,将数据清洗后的对话信息重新组合还原成交流数据(经过数据清洗后的交流数据)。该待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号。
由于交流数据的提供方往往会在交流数据中夹带一些广告、图片等与交流对象的交流内容无关的杂乱信息,因而需要对采集到的交流数据进行数据清洗,去除这些杂乱信息。此外,可以通过数据清洗去除交流数据中的重复内容,以此提高交流数据的分析处理速度。
进一步,如果交流数据是医生与患者之间关于某个药品的交流数据,由于通常是由医生来表达对药品的应用态度(例如:推荐或不推荐),因此在根据目标药品相关的对话信息进行药品推荐类别识别时要先确定当前对话信息的交流对象标识是医生还是患者,如果是医生则可以直接根据该对话信息进行药品推荐类别识别;如果是患者且当前对话信息是疑问句(患者提出疑问),则可以根据对话序号获取排列在当前对话信息之后的且交流对象标识是医生的对话信息,该对话信息就是医生针对当前患者的提问做出的回答信息,最后对该对话信息进行药品推荐类别识别。一个实施方式中,可以通过识别对话信息中的标点符号来判断对话信息是疑问句还是陈述句。而为了便于对标点符号进行文本分析,可以将对话信息中的标点符号均转换成文字信息。一个例子:将标点符号“,”转换成文字信息“逗号”。
在一个实施方式中,可以按照以下步骤对每句对话信息进行数据清洗:
清除对话信息中与交流对象的交流内容无关的杂乱信息如广告、图片等,对清除杂乱信息后的对话信息进行去重处理,以过滤对话信息中相同的信息,或者交流数据中相同的对话信息等内容。并且,在进行去重处理后,可以根据实际的处理结果调整交流数据中对话信息的对话序号。一个例子:若删除了一个重复的对话信息,则需要对对话序号排列在当前被删除的对话信息之后的其他对话信息进行序号调整,以使交流数据中对话信息的对话序号具备连续性。
获取对话信息中的标点符号,将标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。
步骤S104:根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。预设的神经网络分类模型是基于交流数据样本并利用机器学习算法构建的神经网络模型,交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号。具体而言,在本实施例中可以按照以下步骤进行目标物品推荐类别识别:
步骤21:获取预设训练集中的交流数据样本。
交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号。其中,数据清洗方法与前述步骤S103中所述的数据清洗方法相同,为了描述简洁,在此不再赘述。物品推荐类别信息包括物品标签以及物品的推荐类别。一个例子:物品推荐类别信息中的物品标签是通心络,物品的推荐类别是不推荐。
步骤22:基于交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练。
步骤23:根据模型训练后的神经网络分类模型对待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。
要说明的是,上述步骤21-步骤23是一个完整的神经网络分类模型的训练与使用过程。在一些实施方式中,如果神经网络分类模型已经训练完成,可以在步骤S103之后忽略步骤21-22,转而直接执行步骤23。一个实施方式中,在神经网络分类模型的训练过程中,可以采用机器学习技术领域中常规的防过拟合算法如Dropout算法对神经网络分类模型进行防过拟合控制,防止发生过拟合问题(模型在训练数据上的预测准确率较高,但是在测试数据上的预测准确率较低)。
进一步,在一个实施方式中,如果物品是药品,则可以按照以下步骤进行目标药品推荐类别识别:
步骤31:获取待处理交流数据中包含目标药品的对话信息并将对话信息作为第一目标对话信息。
步骤32:获取第一目标对话信息的交流对象标识符。若交流对象标识符是医生,则转至步骤33;若交流对象标识符是患者,则转至步骤34。
步骤33:根据预设的神经网络分类模型对第一目标对话信息进行目标药品推荐类别识别。其中,预设的神经网络分类模型是经前述步骤21-22训练完成的模型。
步骤34:选取包含问号的第一目标对话信息作为第二目标对话信息(选取句型是疑问句的第一目标对话信息作为第二目标对话信息,即患者的提问信息),获取在待处理交流数据中对话序号排列在第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息(医生的回答信息),根据预设的神经网络分类模型对获取到的对话信息(医生的回答信息)进行目标药品推荐类别识别。其中,预设的神经网络分类模型是经前述步骤21-22训练完成的模型。
在一个实施方式中,预设的神经网络分类模型可以包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层。
1、BRNN模型层
BRNN模型层指的是,基于双向循环神经网络(Bidirectional Recurrent NeuralNetworks,BRNN)构建的神经网络分类模型中的一个网络层。BRNN模型层可以被配置成获取对话信息的分词处理结果,根据分词处理结果获取对话信息中每个词语各自对应的词向量、根据对话信息中标点符号的文字信息获取标点符号的符号向量,以及根据对话信息的交流对象标识获取交流对象标识符的对象向量。
一个实施方式中,可以利用自然语言处理技术领域中常规的分词工具进行对话信息分词处理,例如:分词工具HanLP(Han Language Processing)。
一个实施方式中,BRNN模型层可以被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式(1)所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:
Tfidf(w)=tf(d,w)×idf(w) (1)
公式(1)中各参数含义是:
Tfidf(w)是第w个词语的权重,tf(d,w)是第w个词语在第个交流数据中的词频,idf(w)是第w个词语的逆文本频率指数。若第w个词语是目标物品的相关词语,则
Figure BDA0002531054250000151
若第w个词语不是目标物品的相关词语,则
Figure BDA0002531054250000152
N是交流数据的总数,N(w)是包含有第w个词语的交流数据的数量,k是预设的加权系数。
目标物品的相关词语包括目标物品本身及其别称对应的词语。一个例子:目标物品是复方丹参,而复方丹参的别称包括丹参片、丹参胶囊等,则复方丹参的相关词语包括:复方丹参、丹参片、丹参胶囊。进一步,在利用分词工具对交流数据中的对话信息进行分词处理时,获取以当前目标物品和/或其别称为核心截取的短语,那么在该短语中除了当前目标物品及其别称以外的其他词语也是目标物品的相关词语。一个例子:对话信息包括如下内容:可服用通心络胶囊来治疗,此药主要成分为人参、水蛭、全蝎、檀香、土鳖虫、蜈蚣等,对脑梗塞具有改善作用,可以停服复方丹参。在上述对话信息中目标物品是通心络胶囊,对上述对话信息进行分词处理后得到以通心络胶囊为核心截取的短语是“可服用通心络胶囊来治疗”,则该短语中的词语“可服用”、“治疗”均是通心络胶囊的相关词语。
2、BIGRU模型层
BIGRU模型层指的是,基于双向门限循环神经网络(Bis Gated Recurrent Unit,BIGRU)构建的神经网络分类模型中的一个网络层。BIGRU模型层可以被配置成根据BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取对话信息的特征向量。在本实施例中可以通过对词向量、符号向量以及对象向量进行池化操作,将池化操作得到的向量作为特征向量。在本实施例中可以采用机器学习技术领域中常规的池化方法对上述向量进行池化操作。一个例子:可以采用均值池化方法(mean-pooling)对上述向量进行池化操作。
3、分类函数层
分类函数层指的是,基于机器学习技术领域中常规的分类函数构建的神经网络分类模型中的一个网络层。分类函数层可以被配置成根据对话信息的特征向量,预测对话信息对应的每个推荐类别的概率。一个例子:分类函数层是基于Softmax函数构建的网络层。
4、推荐类别输出层
推荐类别输出层可以被配置成获取并输出最大概率对应的推荐类别,即将最大概率对应的推荐类别作为当前物品的最终推荐类别,根据该推荐类别能够直观且清楚地了解当前物品的应用状态(例如:被推荐使用或不被推荐使用)。
基于BRNN+BIGRU架构的神经网络分类模型,能够关联目标物品在对话信息中的前后文字信息,以及当前对话信息在交流数据中的前后对话信息,从而更加准确地识别出当前目标物品的推荐类别。一个例子:对话信息包括如下内容:医生(2020-06-01/14:00):可以服用麝香保心丸。患者(2020-06-01/14:02):已经服用三个月症状没有减轻。医生(2020-06-01/14:05):可将麝香保心丸替换成通心络。在上述对话信息中目标物品是麝香保心丸,基于上述神经网络分类模型对上述对话信息进行麝香保心丸的推荐类别识别后,可以得到麝香保心丸的推荐类别是不推荐。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
参阅附图2,图2是根据本发明的一个实施例的基于自然语言处理的物品应用分析系统的主要结构框图。如图2所示,本发明实施例中基于自然语言处理的物品应用分析系统主要包括交流数据获取装置、第一数据处理装置、第二数据处理装置和物品应用分析装置。在一些实施方式中,交流数据获取装置、第一数据处理装置、第二数据处理装置和物品应用分析装置中的一个或多个可以合并在一起成为一个装置。在一些实施方式中,交流数据获取装置可以其被配置成获取与目标物品相关的交流对象的交流数据,交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息。第一数据处理装置可以被配置成根据每个交流数据中每句对话信息各自对应的交流顺序,生成在每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据特征信息分别设置在每个交流数据中每句对话信息各自对应的唯一标识符。第二数据处理装置可以被配置成对每个交流数据中的每句对话信息进行数据清洗,随后获取在数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;待处理交流数据包括根据对话序号排列的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号。物品应用分析装置可以被配置成根据预设的神经网络分类模型对待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。在一个实施方式中,具体实现功能的描述可以参见步骤S101-步骤S104所述。
在一个实施方式中,第一数据处理装置可以包括特征信息获取模块,和/或第二数据处理模块可以包括数据清洗模块。
特征信息获取模块可以被配置成执行以下操作:
获取每个交流数据的来源信息;判断是否存在具有相同来源信息的交流数据;若不存在具有相同来源信息的交流数据,则直接将所述信息作为交流数据的特征信息;若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
数据清洗模块可以被配置成执行以下操作:
清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理以及字段规整化处理;获取对话信息中的标点符号,将标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。在一个实施方式中,具体实现功能的描述可以参见步骤S103所述。
在一个实施方式中,物品应用分析装置可以包括第一物品应用分析模块和/或第二物品应用分析模块。
第一物品应用分析模块可以被配置成当物品是药品时执行以下操作:获取待处理交流数据中包含目标药品的对话信息并将对话信息作为第一目标对话信息;获取第一目标对话信息的交流对象标识符;若交流对象标识符是医生,则根据预设的神经网络分类模型对第一目标对话信息进行目标药品推荐类别识别;若交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。
第二物品应用分析模块被配置成执行以下操作:获取预设训练集中的交流数据样本,交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;基于交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;根据模型训练后的神经网络分类模型对待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。
在一个实施方式中,预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层。
BRNN模型层可以被配置成获取对话信息的分词处理结果,根据分词处理结果获取对话信息中每个词语各自对应的词向量、根据对话信息中标点符号的文字信息获取标点符号的符号向量,以及根据对话信息的交流对象标识获取交流对象标识符的对象向量。BIGRU模型层可以被配置成根据BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取对话信息的特征向量。分类函数层可以被配置成根据对话信息的特征向量,预测对话信息对应的每个推荐类别的概率。推荐类别输出层可以被配置成获取并输出最大概率对应的推荐类别。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。
在一个实施方式中,BRNN模型层可以被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据公式(1)所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量。在一个实施方式中,具体实现功能的描述可以参见步骤S104所述。
上述基于自然语言处理的物品应用分析系统以用于执行图1所示的基于自然语言处理的物品应用分析方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,基于自然语言处理的物品应用分析系统的具体工作过程及有关说明,可以参考基于自然语言处理的物品应用分析方法的实施例所描述的内容,此处不再赘述。
进一步,本发明还提供了一种存储装置。在该存储装置实施例中存储装置可以被配置成存储执行上述方法实施例的基于自然语言处理的物品应用分析方法的程序,该程序可以由处理器加载并运行以实现上述基于自然语言处理的物品应用分析方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该存储装置可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中存储是非暂时性的计算机可读存储介质。
进一步,本发明还提供了一种控制装置。在该控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的基于自然语言处理的物品应用分析方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的基于自然语言处理的物品应用分析方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备,可选的,本发明实施例中控制装置是服务器。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的系统的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个装置的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于自然语言处理的物品应用分析方法,其特征在于,所述方法包括:
获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;
根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;
对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;
根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。
2.根据权利要求1所述的基于自然语言处理的物品应用分析方法,其特征在于,
所述获取每个交流数据的特征信息,具体包括:
获取每个交流数据的来源信息;
判断是否存在具有相同来源信息的交流数据;
若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;
若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;
并且/或者,
所述对每个交流数据中的对话信息进行数据清洗,具体包括:
清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;
获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。
3.根据权利要求1所述的基于自然语言处理的物品应用分析方法,其特征在于,
当所述物品是药品时,所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:
获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;
获取所述第一目标对话信息的交流对象标识符;
若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;
若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;
并且/或者,
所述根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,具体包括:
获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;
基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;
根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。
4.根据权利要求2所述的基于自然语言处理的物品应用分析方法,其特征在于,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;
所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;
所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;
所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;
所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。
5.根据权利要求4所述的基于自然语言处理的物品应用分析方法,其特征在于,还包括:
所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:
Tfidf(w)=tf(d,w)×idf(w)
其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;
若所述第w个词语是目标物品的相关词语,则
Figure FDA0002531054240000031
若所述第w个词语不是目标物品的相关词语,则
Figure FDA0002531054240000032
所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。
6.一种基于自然语言处理的物品应用分析系统,其特征在于,所述系统包括:
交流数据获取装置,其被配置成获取与目标物品相关的交流对象的交流数据,所述交流数据包括多个交流对象标识以及每个交流对象标识各自对应的对话信息;
第一数据处理装置,其被配置成根据每个交流数据中每句对话信息各自对应的交流顺序,生成在所述每个交流数据中每句对话信息各自对应的对话序号;获取每个交流数据的特征信息并根据所述特征信息分别设置在所述每个交流数据中每句对话信息各自对应的唯一标识符;
第二数据处理装置,其被配置成对每个交流数据中的对话信息进行数据清洗,随后获取在所述数据清洗后的对话信息中具有相同唯一标识符的对话信息,以及根据对话序号对所述具有相同唯一标识符的对话信息进行排序并根据排序结果生成待处理交流数据;所述待处理交流数据包括根据对话序号排列的数据清洗后的对话信息,以及每句对话信息各自对应的交流对象标识和对话序号;
物品应用分析装置,其被配置成根据预设的神经网络分类模型对所述待处理交流数据进行目标物品推荐类别识别,根据识别结果输出目标物品的应用状态。
7.根据权利要求6所述的基于自然语言处理的物品应用分析系统,其特征在于,所述第一数据处理装置包括特征信息获取模块,和/或所述第二数据处理模块包括数据清洗模块;
所述特征信息获取模块被配置成执行以下操作:
获取每个交流数据的来源信息;
判断是否存在具有相同来源信息的交流数据;
若不存在具有相同来源信息的交流数据,则直接将所述来源信息作为交流数据的特征信息;
若存在具有相同来源信息的交流数据,则获取每个交流数据中交流对象的对象特征,对每个交流数据各自对应的来源信息与对象特征进行信息组合并将信息组合结果作为每个交流数据各自对应的特征信息;
所述数据清洗模块被配置成执行以下操作:
清除对话信息中与交流对象的交流内容无关的杂乱信息,对清除杂乱信息后的对话信息分别进行信息去重处理;
获取对话信息中的标点符号,将所述标点符号中除问号以及句号以外的其他标点符号均设置为逗号,随后根据每个标点符号的语义信息分别将每个标点符号转换成相应的文字信息。
8.根据权利要求6所述的基于自然语言处理的物品应用分析系统,其特征在于,所述物品应用分析装置包括第一物品应用分析模块和/或第二物品应用分析模块;
所述第一物品应用分析模块被配置成当物品是药品时执行以下操作:
获取所述待处理交流数据中包含目标药品的对话信息并将所述对话信息作为第一目标对话信息;
获取所述第一目标对话信息的交流对象标识符;
若所述交流对象标识符是医生,则根据预设的神经网络分类模型对所述第一目标对话信息进行目标药品推荐类别识别;
若所述交流对象标识符是患者,则选取包含问号的第一目标对话信息作为第二目标对话信息,获取在所述待处理交流数据中对话序号排列在所述第二目标对话信息的对话序号之后且交流对象标识符是医生的对话信息,根据预设的神经网络分类模型对获取到的对话信息进行目标药品推荐类别识别;
所述第二物品应用分析模块被配置成执行以下操作:
获取预设训练集中的交流数据样本,所述交流数据样本包括物品推荐类别信息、根据对话序号排列的数据清洗后的对话信息以及每句对话信息各自对应的交流对象标识和对话序号;
基于所述交流数据样本并利用机器学习算法对预先构建的神经网络分类模型进行模型训练;
根据模型训练后的神经网络分类模型对所述待处理交流数据中的目标物品进行推荐类别识别,得到目标物品对应的推荐类别。
9.根据权利要求7所述的基于自然语言处理的物品应用分析系统,其特征在于,所述预设的神经网络分类模型包括BRNN模型层、BIGRU模型层、分类函数层和推荐类别输出层;
所述BRNN模型层被配置成获取对话信息的分词处理结果,根据所述分词处理结果获取所述对话信息中每个词语各自对应的词向量、根据所述对话信息中标点符号的文字信息获取所述标点符号的符号向量,以及根据所述对话信息的交流对象标识获取所述交流对象标识符的对象向量;
所述BIGRU模型层被配置成根据所述BRNN模型层输出的对话信息的词向量、符号向量以及对象向量,获取所述对话信息的特征向量;
所述分类函数层被配置成根据所述对话信息的特征向量,预测所述对话信息对应的每个推荐类别的概率;
所述推荐类别输出层被配置成获取并输出最大概率对应的推荐类别。
10.根据权利要求9所述的基于自然语言处理的物品应用分析系统,其特征在于,还包括:
所述BRNN模型层被配置成根据每个词语的语义信息获取每个词语各自对应的特征向量,根据下述公式所示的方法获取对话信息中每个词语各自对应的权重,根据每个词语各自对应的特征向量以及权重进行加权计算,得到每个词语各自对应的词向量:
Tfidf(w)=tf(d,w)×idf(w)
其中,所述Tfidf(w)是第w个词语的权重,所述tf(d,w)是第w个词语在第d个交流数据中的词频,所述idf(w)是第w个词语的逆文本频率指数;
若所述第w个词语是目标物品的相关词语,则
Figure FDA0002531054240000061
若所述第w个词语不是目标物品的相关词语,则
Figure FDA0002531054240000062
所述N是交流数据的总数,所述N(w)是包含有第w个词语的交流数据的数量,所述k是预设的加权系数。
CN202010518566.9A 2020-06-09 2020-06-09 基于自然语言处理的物品应用分析方法及系统 Active CN111680499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010518566.9A CN111680499B (zh) 2020-06-09 2020-06-09 基于自然语言处理的物品应用分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010518566.9A CN111680499B (zh) 2020-06-09 2020-06-09 基于自然语言处理的物品应用分析方法及系统

Publications (2)

Publication Number Publication Date
CN111680499A true CN111680499A (zh) 2020-09-18
CN111680499B CN111680499B (zh) 2023-10-17

Family

ID=72455049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010518566.9A Active CN111680499B (zh) 2020-06-09 2020-06-09 基于自然语言处理的物品应用分析方法及系统

Country Status (1)

Country Link
CN (1) CN111680499B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267449A (zh) * 2021-12-22 2022-04-01 山东众阳健康科技集团有限公司 一种全院血糖监控方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072939A (ko) * 2001-03-13 2002-09-19 (주)데카커뮤니케이션즈 인터넷 쇼핑 에이전트에서의 다이알로그 마이닝 기법을이용한 개인화된 구매의사결정 지원과 마케팅 정보 추출방법
CN106528530A (zh) * 2016-10-24 2017-03-22 北京光年无限科技有限公司 一种确定句子类型的方法及装置
CN110704586A (zh) * 2019-09-30 2020-01-17 支付宝(杭州)信息技术有限公司 一种信息处理方法及系统
CN110796462A (zh) * 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 流量引导的方法和装置
CN110942358A (zh) * 2018-09-21 2020-03-31 北京国双科技有限公司 一种信息交互方法、装置、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072939A (ko) * 2001-03-13 2002-09-19 (주)데카커뮤니케이션즈 인터넷 쇼핑 에이전트에서의 다이알로그 마이닝 기법을이용한 개인화된 구매의사결정 지원과 마케팅 정보 추출방법
CN106528530A (zh) * 2016-10-24 2017-03-22 北京光年无限科技有限公司 一种确定句子类型的方法及装置
CN110796462A (zh) * 2018-08-01 2020-02-14 北京京东尚科信息技术有限公司 流量引导的方法和装置
CN110942358A (zh) * 2018-09-21 2020-03-31 北京国双科技有限公司 一种信息交互方法、装置、设备及介质
CN110704586A (zh) * 2019-09-30 2020-01-17 支付宝(杭州)信息技术有限公司 一种信息处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267449A (zh) * 2021-12-22 2022-04-01 山东众阳健康科技集团有限公司 一种全院血糖监控方法和系统

Also Published As

Publication number Publication date
CN111680499B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
Tang et al. What the daam: Interpreting stable diffusion using cross attention
CN107729319A (zh) 用于输出信息的方法和装置
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN103577558B (zh) 一种优化问答对的搜索排名的装置和方法
US8825620B1 (en) Behavioral word segmentation for use in processing search queries
CN109492081B (zh) 文本信息搜索和信息交互方法、装置、设备及存储介质
CN104036004B (zh) 搜索纠错方法和搜索纠错装置
CN109918627A (zh) 文本生成方法、装置、电子设备及存储介质
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN106844638A (zh) 信息检索方法、装置及电子设备
CN111091883B (zh) 一种医疗文本处理方法、装置、存储介质及设备
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN111178701A (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN111680499A (zh) 基于自然语言处理的物品应用分析方法及系统
Bottrighi et al. Interactive mining and retrieval from process traces
CN114186024A (zh) 推荐方法及装置
Balim et al. Diagnosing fashion outfit compatibility with deep learning techniques
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
CN106407254B (zh) 用户点击行为链的处理方法及装置
CN107688594B (zh) 基于社交信息的风险事件的识别系统及方法
CN107368500A (zh) 数据抽取方法及系统
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN107315831A (zh) 一种挖掘规则关联模型未知关联关系的方法及装置
CN110400173A (zh) 市场情绪监测体系建立方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant