CN106682387A - 用于输出信息的方法和装置 - Google Patents

用于输出信息的方法和装置 Download PDF

Info

Publication number
CN106682387A
CN106682387A CN201610946121.4A CN201610946121A CN106682387A CN 106682387 A CN106682387 A CN 106682387A CN 201610946121 A CN201610946121 A CN 201610946121A CN 106682387 A CN106682387 A CN 106682387A
Authority
CN
China
Prior art keywords
consulting
information
candidate
word
symptom description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610946121.4A
Other languages
English (en)
Inventor
李林峰
曾刚
何戬
张睿卿
李鹏
周杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co Ltd
Original Assignee
Baidu International Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co Ltd filed Critical Baidu International Technology Shenzhen Co Ltd
Priority to CN201610946121.4A priority Critical patent/CN106682387A/zh
Publication of CN106682387A publication Critical patent/CN106682387A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:响应于接收到症状描述信息,判断症状描述信息是否为文本形式,若不是文本形式则对症状描述信息进行预处理得到文本形式的症状描述信息;对文本形式的症状描述信息进行切词以获得词序列;将词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合,其中,咨询模型用于表征症状描述信息与咨询建议信息的对应关系;计算候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量;从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。该实施方式能够针对症状问题自动生成咨询建议信息。

Description

用于输出信息的方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于输出信息的方法和装置。
背景技术
近来,随着互联网的飞速发展,各种社交媒体大量涌现,在健康相关的医疗领域,出现了许多在线疾病问答网站,它们为患者提供了更多元化的医疗信息获取渠道。这些网站主要以健康知识,疾病信息,医疗新闻等为主要内容,同时也提供用户在线疾病问答功能。
在线疾病问答主要采用基于检索的技术,检索与新问题最相似的已知问题,把答案作为回复。该技术的缺点是如果已知问题中检索不到则不知道该如何回答,即使有语义上很相似但使用词语不同的已知问题也无法回答,此问题对于文本较长或者低频问题比较明显。
发明内容
本申请的目的在于提出一种改进的用于输出信息的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种用于输出信息的方法,该方法包括:响应于接收到症状描述信息,判断症状描述信息是否为文本形式,若不是文本形式则对症状描述信息进行预处理得到文本形式的症状描述信息;对文本形式的症状描述信息进行切词以获得词序列;将词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合,其中,咨询模型用于表征症状描述信息与咨询建议信息的对应关系;计算候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量;从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。
在一些实施例中,该方法还包括建立咨询模型的步骤,包括:获取文本形式的症状描述信息和与症状描述信息对应的咨询建议信息;将症状描述信息进行切词以获得症状描述信息的词序列;将咨询建议信息进行切词以获得咨询建议信息的词序列;将症状描述信息词序列和咨询建议信息词序列利用深度神经网络进行训练,多次迭代后得到咨询模型。
在一些实施例中,将词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合,包括:将词序列输入预先训练的咨询模型得到包含匹配度的候选咨询建议信息,其中,匹配度用于表征根据症状描述信息确定候选咨询建议信息的准确性;按匹配度由大到小的顺序选择预定数目个候选咨询建议信息组成候选咨询建议信息集合。
在一些实施例中,从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出包括:获取每条候选咨询建议信息的匹配度;将每条候选咨询建议信息切词后的词数量乘以各自的匹配度作为每条候选咨询建议信息的修正后的词数量;从候选咨询建议信息集合中选择修正后的词数量最大的候选咨询建议信息进行输出。
在一些实施例中,症状描述信息包括以下至少一项:文本形式的症状描述信息、语音形式的症状描述信息、图片形式的症状描述信息。
在一些实施例中,对文本形式的症状描述信息进行切词,包括:采用逆向最大匹配法以及条件随机场算法对文本形式的症状描述信息进行切词。
在一些实施例中,从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出,包括:判断所选择的咨询建议信息是否为语音形式,若不是语音形式,则将所选择咨询建议信息转化成语音形式的咨询建议信息再进行输出。
第二方面,本申请提供了一种用于输出信息的装置,该装置包括:接收单元,配置用于响应于接收到症状描述信息,判断症状描述信息是否为文本形式,若不是文本形式则对症状描述信息进行预处理得到文本形式的症状描述信息;切词单元,配置用于对文本形式的症状描述信息进行切词以获得词序列;生成单元,配置用于将词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合,其中,咨询模型用于表征症状描述信息与咨询建议信息的对应关系;计算单元,配置用于计算候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量;输出单元,配置用于从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。
在一些实施例中,该装置还包括咨询模型建立单元,包括:获取子单元,配置用于获取文本形式的症状描述信息和与症状描述信息对应的咨询建议信息;症状切词子单元,配置用于将症状描述信息进行切词以获得症状描述信息的词序列;建议切词子单元,配置用于将咨询建议信息进行切词以获得咨询建议信息的词序列;训练子单元,配置用于将症状描述信息词序列和咨询建议信息词序列利用深度神经网络进行训练,多次迭代后得到咨询模型。
在一些实施例中,生成单元配置用于:将词序列输入预先训练的咨询模型得到包含匹配度的候选咨询建议信息,其中,匹配度用于表征根据症状描述信息确定候选咨询建议信息的准确性;按匹配度由大到小的顺序选择预定数目个候选咨询建议信息组成候选咨询建议信息集合。
在一些实施例中,输出单元进一步配置用于:获取每条候选咨询建议信息的匹配度;将每条候选咨询建议信息切词后的词数量乘以各自的匹配度作为每条候选咨询建议信息的修正后的词数量;从候选咨询建议信息集合中选择修正后的词数量最大的候选咨询建议信息进行输出。
在一些实施例中,症状描述信息包括以下至少一项:文本形式的症状描述信息、语音形式的症状描述信息、图片形式的症状描述信息。
在一些实施例中,切词单元进一步配置用于:采用逆向最大匹配法以及条件随机场算法对文本形式的症状描述信息进行切词。
在一些实施例中,输出单元进一步配置用于:判断所选择的咨询建议信息是否为语音形式,若不是语音形式,则将所选择咨询建议信息转化成语音形式的咨询建议信息再进行输出。
本申请将症状描述信息输入预先训练好的咨询模型生成咨询建议信息,该咨询模型是利用深度学习网络,通过多次迭代后得到的,该咨询模型的输入是症状描述信息的文本,输出则是症状的咨询建议信息,症状描述信息到咨询建议信息的语义映射存在于该咨询模型的各个参数之中,这个语义映射空间可以理解为医疗相关知识,是一种端到端的自动问答解决方案。与已有的在线咨询的技术方案相比,它更能有效的利用互联网上大量的已有问答;对于症状的理解以及相关医疗知识的学习完全交给咨询模型学习,不需要更多的人为参与。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3a和图3b是根据本申请的用于输出信息的方法的一个应用场景的示意图;
图4是根据本申请的用于输出信息的方法的又一个实施例的流程图;
图5是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如就医指导类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的咨询建议信息提供支持的后台咨询服务器。后台咨询服务器可以对接收到的症状描述信息等数据进行分析等处理,并将处理结果(例如咨询建议信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,响应于接收到症状描述信息,判断症状描述信息是否为文本形式,若不是文本形式则对症状描述信息进行预处理得到文本形式的症状描述信息。
在本实施例中,用于输出信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行病症咨询的终端接收症状描述信息。症状描述信息可以是描述疾病症状的信息,如:咳嗽、流鼻涕等。还可以是自然语言表达的描述信息,例如“我肚子疼”,也可以是专业术语表达的描述信息,例如“腹痛”,还可以是自然语言和专业术语相结合表达的描述信息,例如“肚子疼,眩晕”,本申请对此不做限定。若用户输入的中文文本中夹杂着一些外文单词,则可以进行预处理以转换成全中文文本形式的症状描述信息。若症状描述信息不是文本形式,则对症状描述信息进行预处理得到文本形式的症状描述信息。
在本实施例的一些可选的实现方式中,该症状描述信息包括以下至少一项:文本形式的症状描述信息、语音形式的症状描述信息、图片形式的症状描述信息。通过语音识别技术将语音形式的症状描述信息转化成文本形式的症状描述信息。语音识别技术还可以与其他自然语言处理技术如机器翻译相结合,可以将输入的外语翻译成中文再进行后续的处理。若用户输入的中文语音中夹杂着一些外文单词,则可以转换成全中文文本形式的症状描述信息。通过图像识别技术识别出描述症状的图片中是带有血迹的鼻子,可得到文本形式的症状描述信息“鼻子出血怎么办?”。
步骤202,对文本形式的症状描述信息进行切词以获得词序列。
在本实施例中,症状描述信息可以是一句话或者多句话,需要对文本形式的症状描述信息进行切词以获得词序列。切词可以采用多种方法,例如,正向最大匹配法、逆向最大匹配法、最少切分法、双向最大匹配法。作为示例,电子设备可以利用全切分方法切分出症状描述信息中与语言词库匹配的所有可能的词,再运用统计语言模型确定最优的切分结果。以用户输入信息“我这两天一直头晕”为例,可以首先进行语言词库匹配,找到匹配的所有词——我,这,两天,这两天,天一,一直,直头,头晕;这些词以词网格(word lattices)形式表示,接着基于词网格做路径搜索,再基于统计语言模型(例如N-Gram模型,)找到最优路径。如果结果显示“我这两天一直头晕”的语言模型得分最高,则“我这两天一直头晕”即为“我这两天一直头晕”。在这里的N-Gram模型是常用的一种语言模型,对中文而言,可以称之为汉语语言模型(CLM,Chinese Language Model)。该N-Gram模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关。进行切词之后,电子设备还可以对切分后的词进行初步筛选,以去除“我”、“了”等一些与输出信息无关的词汇。
在本实施例的一些可选的实现方式中,采用逆向最大匹配法以及条件随机场算法对文本形式的症状描述信息进行切词。逆向最大匹配法从被处理症状描述信息的末端开始从右到左将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。条件随机场(CRF,Conditional Random Field)算法是近几年自然语言处理领域常用的算法之一,常用于句法分析、命名实体识别、词性标注等。CRF通过发掘词语本身的特征(如长度,大小写,匹配特定词表等,也可以包括词语本身),把每个词语转化成为一个一维特征向量(vector),然后对于每个特征计算特征到词性的条件概率,这样每个词语对候选词性的条件概率即为所有特征条件概率的加和。
步骤203,将词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合。
在本实施例中,将步骤202获得的词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合。该咨询模型用于表征症状描述信息与咨询建议信息的对应关系,该咨询模型能够学习到症状描述信息与咨询建议信息中的语义映射,利用这个语义映射自动生成针对症状的咨询建议信息。
在本实施例的一些可选的实现方式中,将词序列输入预先训练的咨询模型得到包含匹配度的候选咨询建议信息,其中,匹配度用于表征根据症状描述信息确定候选咨询建议信息的准确性;按匹配度由大到小的顺序选择预定数目个候选咨询建议信息组成候选咨询建议信息集合。该咨询模型根据当前的语义向量与前一个词的语义信息共同预测下一个位置出现不同词的概率,选择出现的概率最高的词作为下一个生成的词汇。匹配度与由咨询模型确定的候选咨询建议信息的词汇出现的概率相关联,概率越高则该条候选咨询建议信息的匹配度越大。可以计算候选咨询建议信息中每个词汇出现的概率的平均值作为匹配度。还可以根据不同类型关键词出现的概率所占的权重进行加权后再归一化得到匹配度。然后按匹配度由大到小的顺序选取预定数目个候选咨询建议信息组成候选咨询建议信息集合。一般选取匹配度最高的3条。可选地,如果匹配度低于预设的值时,或者候选咨询建议信息的数量超过预设的推荐阈值条数时,可以提示用户进一步输入可用信息以缩小咨询建议信息集合的范围,例如,用户输入:“脱发怎么治啊?”时,咨询模型生成回答:“你好,请问多长时间了?一天大概掉多少根头发?头发出油多不多?”。
步骤204,计算候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量。
在本实施例中,咨询模型生成的候选咨询建议信息集合中每条候选咨询建议信息可以包含多个词汇,统计每条候选咨询建议信息切词后的词数量,其中,该词汇量是去除了“我”、“了”等一些与咨询建议的结果无关的词汇后,统计的与咨询建议的结果相关的词的总量。
步骤205,从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。
在本实施例中,候选咨询建议信息集合中的每条候选咨询建议信息的准确性达到预设的标准,从中选出词汇量最大的咨询建议信息作为最优的结果进行输出,该词汇量用于表征咨询建议信息的信息量多少。例如,咨询建议信息集合中包括:可选项A“可以吃妈咪爱”,可选项B“可以吃妈咪爱和思密达”,则计算出选项B的切词后的词数量大于选项A切词后的词数量,最终选择选项B“可以吃妈咪爱和思密达”进行输出。
在本实施例的一些可选的实现方式中,从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出包括:获取每条候选咨询建议信息的匹配度;将每条候选咨询建议信息切词后的词数量乘以各自的匹配度作为每条候选咨询建议信息的权重;从候选咨询建议信息集合中选择权重最大的候选咨询建议信息进行输出。上述处理将原来词数量用匹配度进行了修正,例如,选项A的匹配度为95%,词数量为10,修正后的词数量为9.5。选项B的匹配度为85%,词数量为11,修正后的词数量为9.35。进行词数量修正后采用选项A的结果。用匹配度进行词数量的修正有利于提高输出的咨询建议信息的准确性。
在本实施例的一些可选的实现方式中,上述咨询模型的输出可以是文本形式或者是语音形式的。可以将输出的形式与症状描述信息的输入形式相匹配。若以语音形式输入症状描述信息,则判断所选择的咨询建议信息是否为语音形式,若不是语音形式,则将所选择咨询建议信息转化成语音形式的咨询建议信息再进行输出。
继续参见图3a和3b,图3a和3b是根据本实施例的用于输出信息的方法的应用场景的一个示意图。在图3a的应用场景中,用户首先通过终端输入问题:“2岁宝宝拉肚子怎么办?”;之后,咨询服务器可以后台获取上述问题的内容,并采用独热编码(One-hotRepresentation)把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。再通过词嵌入(WordEmbedding)转换成低维实数向量。然后分别接入前向递归神经网络和后向递归神经网络两个递归神经网络(RNN,Recurrent neural Network),最终相当于把每个输入词映射为两个向量,这两个向量可以理解为这个词语的语义向量。在图3b的应用场景中,咨询服务器将语义向量输入注意力模型(用于在生成该词时需要多注意对应的输入词),然后输入前向RNN进行选词后生成回答:“可以吃妈咪爱和思密达调理”。再发送给用户的终端进行输出显示。
本申请的上述实施例提供的方法通过将症状描述信息输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合,并从中选出最优的候选咨询建议信息进行输出,可以提高自然语言理解能力,回复地更加自然而非机器语言,并且是纯机器学习,无需人工参与模型定义以及知识库建设等繁琐工作。
进一步参考图4,其示出了用于输出信息的方法的又一个实施例的流程400。该用于输出信息的方法的流程400,包括以下步骤:
步骤401,获取文本形式的症状描述信息和与症状描述信息对应的咨询建议信息。
在本实施例中,用于输出信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式获取互联网大量的症状描述信息和与症状描述信息对应的咨询建议信息,将其转化成文本形式。还可从第三方数据源获取症状描述信息和与症状描述信息对应的咨询建议信息,例如,医药词典等。
步骤402,将症状描述信息进行切词以获得症状描述信息的词序列。
在本实施例中,将步骤401所获取的症状描述信息进行切词以获得症状描述信息的词序列。切词方法与步骤201基本相同,因此不再赘述。
步骤403,将咨询建议信息进行切词以获得咨询建议信息的词序列。
在本实施例中,将步骤401所获取的咨询建议信息进行切词以获得咨询建议信息的词序列。切词方法与步骤201基本相同,因此不再赘述。
步骤404,将症状描述信息词序列和咨询建议信息词序列利用深度神经网络进行训练,多次迭代后得到咨询模型。
在本实施例中,将步骤402得到的症状描述信息词序列和步骤403得到的咨询建议信息词序列作为训练样本训练咨询模型。
该咨询模型是一种深度神经网络,网络的结构分为两部分:编码(Encoder)和解码(Decoder):
编码阶段是把输入的症状描述信息切词序列首先映射为0-1向量,再对应映射为固定长度的连续值向量,即词嵌入(word embedding),然后分别接入前向RNN和后向RNN两个递归神经网络,最终相当于把每个输入词映射为两个向量,这两个向量可以理解为这个词语的语义。
解码阶段是把编码阶段的语义向量通过注意力(attention)模型加权平均形成新的语义向量输入到一个递归神经网络中,RNN根据当前的语义向量与前一个词的语义信息共同预测下一个位置出现不同词的概率,选择概率最大的作为下一个生成的词汇,直到生成句子结束符。
该咨询模型中的语义向量与加强平均的系数等,都是基于训练样本通过随机梯度下降方法计算得到。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于输出信息的方法的流程400突出了对建立咨询模型的步骤。由此,本实施例描述的方案可以建立咨询模型以用于输出与用户输入的症状描述信息对应的咨询建议信息,从而快速、准确地理解并回答用户提出的问题,纯机器学习,无需人工参与模型定义以及知识库建设等繁琐工作。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的用于输出信息的装置500包括:接收单元501、切词单元502、生成单元503、计算单元504和输出单元505。其中,接收单元501配置用于响应于接收到症状描述信息,判断症状描述信息是否为文本形式,若不是文本形式则对症状描述信息进行预处理得到文本形式的症状描述信息;切词单元502配置用于对文本形式的症状描述信息进行切词以获得词序列;生成单元503配置用于将词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合,其中,咨询模型用于表征症状描述信息与咨询建议信息的对应关系;计算单元504配置用于计算候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量;输出单元505配置用于从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。
在本实施例中,接收单元501将文本形式的症状描述信息输入切词单元502得到词序列,然后将词序列输入生成单元503生成候选咨询建议信息集合,最后根据计算单元504的计算结果由输出单元505选择一条候选咨询建议信息进行输出。
在本实施例的一些可选的实现方式中,装置500还包括咨询模型建立单元,包括:获取子单元,配置用于获取文本形式的症状描述信息和与症状描述信息对应的咨询建议信息;症状切词子单元,配置用于将症状描述信息进行切词以获得症状描述信息的词序列;建议切词子单元,配置用于将咨询建议信息进行切词以获得咨询建议信息的词序列;训练子单元,配置用于将症状描述信息词序列和咨询建议信息词序列利用深度神经网络进行训练,多次迭代后得到咨询模型。
在本实施例的一些可选的实现方式中,生成单元503配置用于:将词序列输入预先训练的咨询模型得到包含匹配度的候选咨询建议信息,其中,匹配度用于表征根据症状描述信息确定候选咨询建议信息的准确性;按匹配度由大到小的顺序选择预定数目个候选咨询建议信息组成候选咨询建议信息集合。
在本实施例的一些可选的实现方式中,输出单元505进一步配置用于:获取每条候选咨询建议信息的匹配度;将每条候选咨询建议信息切词后的词数量乘以各自的匹配度作为每条候选咨询建议信息的修正后的词数量;从候选咨询建议信息集合中选择修正后的词数量最大的候选咨询建议信息进行输出。
在本实施例的一些可选的实现方式中,症状描述信息的形式包括以下任何一项:文本形式、语音形式、图片形式。
在本实施例的一些可选的实现方式中,切词单元502进一步配置用于:采用逆向最大匹配法以及条件随机场算法对文本形式的症状描述信息进行切词。
在本实施例的一些可选的实现方式中,输出单元505进一步配置用于:判断所选择的咨询建议信息是否为语音形式,若不是语音形式,则将所选择咨询建议信息转化成语音形式的咨询建议信息再进行输出。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括接收单元、切词单元、生成单元、计算单元和输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“响应于接收到症状描述信息,判断症状描述信息是否为文本形式,若不是文本形式则对症状描述信息进行预处理得到文本形式的症状描述信息的单元”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当一个或者多个程序被一个设备执行时,使得设备:响应于接收到症状描述信息,判断症状描述信息是否为文本形式,若不是文本形式则对症状描述信息进行预处理得到文本形式的症状描述信息;对文本形式的症状描述信息进行切词以获得词序列;将词序列输入预先训练的咨询模型,由咨询模型生成候选咨询建议信息集合,其中,咨询模型用于表征症状描述信息与咨询建议信息的对应关系;计算候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量;从候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种用于输出信息的方法,其特征在于,所述方法包括:
响应于接收到症状描述信息,判断所述症状描述信息是否为文本形式,若不是文本形式则对所述症状描述信息进行预处理得到文本形式的症状描述信息;
对所述文本形式的症状描述信息进行切词以获得词序列;
将所述词序列输入预先训练的咨询模型,由所述咨询模型生成候选咨询建议信息集合,其中,所述咨询模型用于表征症状描述信息与咨询建议信息的对应关系;
计算所述候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量;
从所述候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。
2.根据权利要求1所述的用于输出信息的方法,其特征在于,所述方法还包括建立咨询模型的步骤,包括:
获取文本形式的症状描述信息和与所述症状描述信息对应的咨询建议信息;
将所述症状描述信息进行切词以获得所述症状描述信息的词序列;
将所述咨询建议信息进行切词以获得所述咨询建议信息的词序列;
将所述症状描述信息词序列和所述咨询建议信息词序列利用深度神经网络进行训练,多次迭代后得到咨询模型。
3.根据权利要求1所述的用于输出信息的方法,其特征在于,所述将所述词序列输入预先训练的咨询模型,由所述咨询模型生成候选咨询建议信息集合,包括:
将所述词序列输入预先训练的咨询模型得到包含匹配度的候选咨询建议信息,其中,所述匹配度用于表征根据所述症状描述信息确定候选咨询建议信息的准确性;
按匹配度由大到小的顺序选择预定数目个候选咨询建议信息组成候选咨询建议信息集合。
4.根据权利要求3所述的用于输出信息的方法,其特征在于,所述从所述候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出包括:
获取每条候选咨询建议信息的匹配度;
将每条候选咨询建议信息切词后的词数量乘以各自的匹配度作为每条候选咨询建议信息的修正后的词数量;
从所述候选咨询建议信息集合中选择修正后的词数量最大的候选咨询建议信息进行输出。
5.根据权利要求1所述的用于输出信息的方法,其特征在于,所述症状描述信息包括以下至少一项:
文本形式的症状描述信息、语音形式的症状描述信息、图片形式的症状描述信息。
6.根据权利要求1所述的用于输出信息的方法,其特征在于,所述对所述文本形式的症状描述信息进行切词,包括:
采用逆向最大匹配法以及条件随机场算法对所述文本形式的症状描述信息进行切词。
7.根据权利要求1所述的用于输出信息的方法,其特征在于,所述从所述候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出,包括:
判断所选择的咨询建议信息是否为语音形式,若不是语音形式,则将所选择咨询建议信息转化成语音形式的咨询建议信息再进行输出。
8.一种用于输出信息的装置,其特征在于,所述装置包括:
接收单元,配置用于响应于接收到症状描述信息,判断所述症状描述信息是否为文本形式,若不是文本形式则对所述症状描述信息进行预处理得到文本形式的症状描述信息;
切词单元,配置用于对所述文本形式的症状描述信息进行切词以获得词序列;
生成单元,配置用于将所述词序列输入预先训练的咨询模型,由所述咨询模型生成候选咨询建议信息集合,其中,所述咨询模型用于表征症状描述信息与咨询建议信息的对应关系;
计算单元,配置用于计算所述候选咨询建议信息集合中每条候选咨询建议信息切词后的词数量;
输出单元,配置用于从所述候选咨询建议信息集合中选择切词后的词数量最大的候选咨询建议信息进行输出。
9.根据权利要求8所述的用于输出信息的装置,其特征在于,所述装置还包括咨询模型建立单元,包括:
获取子单元,配置用于获取文本形式的症状描述信息和与所述症状描述信息对应的咨询建议信息;
症状切词子单元,配置用于将所述症状描述信息进行切词以获得所述症状描述信息的词序列;
建议切词子单元,配置用于将所述咨询建议信息进行切词以获得所述咨询建议信息的词序列;
训练子单元,配置用于将所述症状描述信息词序列和所述咨询建议信息词序列利用深度神经网络进行训练,多次迭代后得到咨询模型。
10.根据权利要求8所述的用于输出信息的装置,其特征在于,所述生成单元配置用于:
将所述词序列输入预先训练的咨询模型得到包含匹配度的候选咨询建议信息,其中,所述匹配度用于表征根据所述症状描述信息确定候选咨询建议信息的准确性;
按匹配度由大到小的顺序选择预定数目个候选咨询建议信息组成候选咨询建议信息集合。
11.根据权利要求10所述的用于输出信息的装置,其特征在于,所述输出单元进一步配置用于:
获取每条候选咨询建议信息的匹配度;
将每条候选咨询建议信息切词后的词数量乘以各自的匹配度作为每条候选咨询建议信息的修正后的词数量;
从所述候选咨询建议信息集合中选择修正后的词数量最大的候选咨询建议信息进行输出。
12.根据权利要求8所述的用于输出信息的装置,其特征在于,所述症状描述信息包括以下至少一项:
文本形式的症状描述信息、语音形式的症状描述信息、图片形式的症状描述信息。
13.根据权利要求8所述的用于输出信息的装置,其特征在于,所述切词单元进一步配置用于:
采用逆向最大匹配法以及条件随机场算法对所述文本形式的症状描述信息进行切词。
14.根据权利要求8所述的用于输出信息的装置,其特征在于,所述输出单元进一步配置用于:
判断所选择的咨询建议信息是否为语音形式,若不是语音形式,则将所选择咨询建议信息转化成语音形式的咨询建议信息再进行输出。
CN201610946121.4A 2016-10-26 2016-10-26 用于输出信息的方法和装置 Pending CN106682387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610946121.4A CN106682387A (zh) 2016-10-26 2016-10-26 用于输出信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610946121.4A CN106682387A (zh) 2016-10-26 2016-10-26 用于输出信息的方法和装置

Publications (1)

Publication Number Publication Date
CN106682387A true CN106682387A (zh) 2017-05-17

Family

ID=58839727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610946121.4A Pending CN106682387A (zh) 2016-10-26 2016-10-26 用于输出信息的方法和装置

Country Status (1)

Country Link
CN (1) CN106682387A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515932A (zh) * 2017-08-28 2017-12-26 北京智诚律法科技有限公司 基于标准问题库的人工智能法律咨询系统
CN107832298A (zh) * 2017-11-16 2018-03-23 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN107977472A (zh) * 2017-12-27 2018-05-01 北京诸葛找房信息技术有限公司 房产类新闻文章自动生成的方法
CN108364066A (zh) * 2017-11-30 2018-08-03 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN109492085A (zh) * 2018-11-15 2019-03-19 平安科技(深圳)有限公司 基于数据处理的答案确定方法、装置、终端及存储介质
CN109616165A (zh) * 2018-11-07 2019-04-12 平安科技(深圳)有限公司 医疗信息展示方法及装置
CN110399452A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于实例特征建模的命名实体列表生成方法
CN110634570A (zh) * 2018-06-22 2019-12-31 北京搜狗科技发展有限公司 一种诊断仿真方法及相关装置
CN111180025A (zh) * 2019-12-18 2020-05-19 东北大学 表示病历文本向量的方法、装置及问诊系统
CN111259119A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种问题推荐方法及装置
CN111276259A (zh) * 2018-12-04 2020-06-12 阿里巴巴集团控股有限公司 服务确定、网络交互、分类方法和客户端、服务器和介质
CN112000785A (zh) * 2020-08-12 2020-11-27 沈鑫 构建排行榜并进行动态索引的方法及装置
CN113609275A (zh) * 2021-08-24 2021-11-05 腾讯科技(深圳)有限公司 信息处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
CN105139237A (zh) * 2015-09-25 2015-12-09 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN105260782A (zh) * 2015-09-23 2016-01-20 百度在线网络技术(北京)有限公司 挂号预约信息处理方法及装置
CN105653840A (zh) * 2015-12-21 2016-06-08 青岛中科慧康科技有限公司 基于词句分布表示的相似病例推荐系统及相应的方法
CN105740331A (zh) * 2016-01-22 2016-07-06 百度在线网络技术(北京)有限公司 信息推送方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
CN105260782A (zh) * 2015-09-23 2016-01-20 百度在线网络技术(北京)有限公司 挂号预约信息处理方法及装置
CN105139237A (zh) * 2015-09-25 2015-12-09 百度在线网络技术(北京)有限公司 信息推送的方法和装置
CN105653840A (zh) * 2015-12-21 2016-06-08 青岛中科慧康科技有限公司 基于词句分布表示的相似病例推荐系统及相应的方法
CN105740331A (zh) * 2016-01-22 2016-07-06 百度在线网络技术(北京)有限公司 信息推送方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DZMITRY BAHDANAU ET AL.: "NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE", 《INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS(ICLR)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515932A (zh) * 2017-08-28 2017-12-26 北京智诚律法科技有限公司 基于标准问题库的人工智能法律咨询系统
CN107832298A (zh) * 2017-11-16 2018-03-23 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN108364066B (zh) * 2017-11-30 2019-11-08 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN108364066A (zh) * 2017-11-30 2018-08-03 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN108388944A (zh) * 2017-11-30 2018-08-10 中国科学院计算技术研究所 Lstm神经网络芯片及其使用方法
CN107977472A (zh) * 2017-12-27 2018-05-01 北京诸葛找房信息技术有限公司 房产类新闻文章自动生成的方法
CN110634570A (zh) * 2018-06-22 2019-12-31 北京搜狗科技发展有限公司 一种诊断仿真方法及相关装置
CN109616165A (zh) * 2018-11-07 2019-04-12 平安科技(深圳)有限公司 医疗信息展示方法及装置
CN109492085A (zh) * 2018-11-15 2019-03-19 平安科技(深圳)有限公司 基于数据处理的答案确定方法、装置、终端及存储介质
CN109492085B (zh) * 2018-11-15 2024-05-14 平安科技(深圳)有限公司 基于数据处理的答案确定方法、装置、终端及存储介质
CN111259119B (zh) * 2018-11-30 2023-05-26 北京嘀嘀无限科技发展有限公司 一种问题推荐方法及装置
CN111259119A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种问题推荐方法及装置
CN111276259A (zh) * 2018-12-04 2020-06-12 阿里巴巴集团控股有限公司 服务确定、网络交互、分类方法和客户端、服务器和介质
CN111276259B (zh) * 2018-12-04 2024-03-01 阿里巴巴集团控股有限公司 服务确定、网络交互、分类方法和客户端、服务器和介质
CN110399452A (zh) * 2019-07-23 2019-11-01 福建奇点时空数字科技有限公司 一种基于实例特征建模的命名实体列表生成方法
CN111180025A (zh) * 2019-12-18 2020-05-19 东北大学 表示病历文本向量的方法、装置及问诊系统
CN112000785A (zh) * 2020-08-12 2020-11-27 沈鑫 构建排行榜并进行动态索引的方法及装置
CN113609275A (zh) * 2021-08-24 2021-11-05 腾讯科技(深圳)有限公司 信息处理方法、装置、设备及存储介质
CN113609275B (zh) * 2021-08-24 2024-03-26 腾讯科技(深圳)有限公司 信息处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106682387A (zh) 用于输出信息的方法和装置
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN107783960A (zh) 用于抽取信息的方法、装置和设备
CN105893344A (zh) 基于用户语义情感分析的应答方法和装置
CN107220386A (zh) 信息推送方法和装置
CN107526725A (zh) 基于人工智能的用于生成文本的方法和装置
CN105095444A (zh) 信息获取方法和装置
CN117149989B (zh) 大语言模型训练方法、文本处理方法及装置
CN110705301A (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN110795552A (zh) 一种训练样本生成方法、装置、电子设备及存储介质
CN110516057B (zh) 一种信访问题答复方法及装置
CN111353049A (zh) 数据更新方法、装置、电子设备及计算机可读存储介质
CN107861954A (zh) 基于人工智能的信息输出方法和装置
CN110362797B (zh) 一种研究报告生成方法及相关设备
CN109635080A (zh) 应答策略生成方法及装置
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN111639247A (zh) 用于评估评论的质量的方法、装置、设备以及计算机可读存储介质
CN111767394A (zh) 一种基于人工智能专家系统的摘要提取方法及装置
CN107291775A (zh) 错误样本的修复语料生成方法和装置
CN107862058A (zh) 用于生成信息的方法和装置
CN108364066B (zh) 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN111241397A (zh) 一种内容推荐方法、装置和计算设备
CN115269836A (zh) 意图识别方法及装置
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN114281996A (zh) 长文本分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517