CN112470143A

CN112470143A - 痴呆症预测装置、预测模型生成装置及痴呆症预测用程序

Info

Publication number: CN112470143A
Application number: CN201980048868.XA
Authority: CN
Inventors: 丰柴博义; 内山秀文; 岸本泰士郎; 船木桂; 菅洋子; 堀田章悟; 藤田卓仙; 三村将
Original assignee: Keio School Corp; Frontero Corp
Current assignee: Keio School Corp; Frontero Corp
Priority date: 2018-09-12
Filing date: 2019-07-03
Publication date: 2021-03-09
Also published as: ES2963236T3; US20210313070A1; EP3835972A4; WO2020054186A1; KR102293160B1; JP6733891B2; KR20210003944A; EP3835972C0; EP3835972A1; EP3835972B1; JP2020042659A

Abstract

本发明提供痴呆症预测装置、预测模型生成装置及痴呆症预测用程序；该痴呆症预测装置具备：关联度指标值计算部(100A)，其从表示痴呆症的病情程度已知的m名患者进行的自由对话的内容的m个文本中提取n个单词，并计算出反映m个文本与n个单词之间的关联度的关联度指标值；预测模型生成部(14A)，其生成用于根据针对一个文本由n个关联度指标值构成的文本指标值组预测痴呆症的病情程度的预测模型；以及痴呆症预测部(21A)，其将由关联度指标值计算部(100A)根据预测用数据输入部(20)输入的文本计算出的关联度指标值应用于预测模型中，从而根据预测对象的文本预测患者的痴呆症的病情程度；该痴呆症预测装置无需进行简易精神状态检查便可预测痴呆症的病情程度。

Description

痴呆症预测装置、预测模型生成装置及痴呆症预测用程序

技术领域

本发明涉及痴呆症预测装置、预测模型生成装置以及痴呆症预测用程序，尤其涉及预测患者的痴呆症的病情程度(包括患者罹患痴呆症的可能性)的技术、以及生成该预测中使用的预测模型的技术。

背景技术

痴呆症随着人口的老龄化而不断增加，不仅成为医疗问题，而且成为大的社会问题。在治疗痴呆症时，痴呆症的早期发现及病情程度的评价非常重要。目前，在痴呆症的筛查或病情程度的评价中，日常临床上广泛使用简易精神状态检查(Mini Mental StateExamination：MMSE)。MMSE是由观察定向力、记忆力、注意力(计算力)、语言能力、构成力(图形能力)等的11个项目30分满分的问题构成的认知功能检查。在30分中，27分以下为疑似轻度认知障碍(Mild Cognitive Impairment：MCI)，23分以下为疑似痴呆症，等等。

目前，已知有一种按MMSE的评价项目进行评价来判定罹患痴呆症的可能性，并根据该判定结果进行护理支援的系统(例如参照专利文献1)。在专利文献1所记载的系统中，通过MMSE调查被护理者的身体或精神健康状态，并根据该调查结果来评价被护理者的健康状态。而且，根据被护理者的健康状态的评价制成语音或影像并分发给护理者，护理者根据分发到的语音或影像来护理被护理者。然后，重新调查被护理者的身体或精神健康状态，重新评价被护理者的健康状态。关于调查，记载了从记忆障碍、定向力、ADL(日常生活活动能力)、身体机能这四个项目的观点进行。

专利文献1：日本专利特开2002-251467号公报

发明内容

MMSE作为再现性高的测试而广为人知。然而，当对同一名患者进行多次测试时，患者会通过其练习效果而记住问题的内容，从而无法测出准确的得分。因此，存在难以频繁地测定痴呆症的病情程度这一问题。上述专利文献1所记载的系统完全未考虑到上述MMSE不宜反复使用这一问题。

本发明是为了解决上述问题而完成的，其目的在于，即使在反复测定痴呆症的病情程度的情况下，也能够得到排除了患者的练习效果的测定结果。

为了解决上述问题，在本发明的痴呆症预测装置中，将分别表示痴呆症的病情程度已知的多名患者进行的自由对话的内容的多个文本作为学习用数据输入，对该输入的多个文本进行语素分析而提取多个分解元素，并将多个文本分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的多个文本向量，并且，将多个分解元素分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的多个元素向量，进而，通过分别取得多个文本向量与多个元素向量的内积，从而计算出反映多个文本与多个分解元素之间的关联度的关联度指标值。然后，生成用于根据针对一个文本由多个关联度指标值构成的文本指标值组预测痴呆症的病情程度的预测模型。在针对作为预测对象的患者预测痴呆症的病情程度时，将表示作为预测对象的患者进行的自由对话的内容的文本作为预测用数据输入，并将通过对该输入的预测用数据执行元素提取、文本向量计算、元素向量计算以及指标值计算的各处理而得到的关联度指标值应用于预测模型，从而预测作为预测对象的患者的痴呆症的病情程度。

(发明效果)

根据如上所述构成的本发明，由于是通过分析患者所进行的自由对话来预测痴呆症的病情程度，因而不需要进行简易精神状态检查(MMSE)。因此，即使在反复测定痴呆症的病情程度的情况下，也能够得到排除了患者的练习效果的测定结果(预测结果)。尤其是，若患者已罹患痴呆症，则会在自由对话中发现痴呆症特有的对话特征，由于是在反映上述对话特征的状态下计算出关联度指标值，并使用该关联度指标值生成预测模型，因此，能够从患者进行的自由对话预测痴呆症的病情程度。

附图说明

图1是表示第一实施方式涉及的痴呆症预测装置的功能构成例的框图。

图2是第一实施方式涉及的文本指标值组的说明图。

图3是表示第一实施方式涉及的痴呆症预测装置的动作例的流程图。

图4是表示第二实施方式涉及的痴呆症预测装置的功能构成例的框图。

图5是例示第二实施方式涉及的词类提取部的处理内容的图。

图6是表示第二实施方式涉及的词类提取部所提取的词类的例子的图。

图7是表示第三实施方式涉及的痴呆症预测装置的功能构成例的框图。

图8是例示第三实施方式涉及的预测模型生成部的处理内容的图。

图9是表示第四实施方式涉及的痴呆症预测装置的功能构成例的框图。

图10是表示第四实施方式涉及的痴呆症预测装置的功能构成例的框图。

图11是表示第五实施方式涉及的痴呆症预测装置的功能构成例的框图。

图12是表示痴呆症预测装置的变形例的框图。

(符号说明)

10、10E：学习用数据输入部

11A：单词提取部(元素提取部)

11B：词类提取部(元素提取部)

12A～12E：向量计算部

121：文本向量计算部(元素向量计算部)

122：单词向量计算部(元素向量计算部)

123：词类向量计算部(元素向量计算部)

13A～13C：指标值计算部

14A～14E：预测模型生成部

15：降维部

20：预测用数据输入部

21A～21E：痴呆症预测部

30A～30E：预测模型存储部

100A～100E：关联度指标值计算部

具体实施方式

(第一实施方式)

以下，根据附图对本发明的第一实施方式进行说明。图1是表示第一实施方式涉及的痴呆症预测装置的功能构成例的框图。第一实施方式涉及的痴呆症预测装置的功能构成包括：学习用数据输入部10、单词提取部11A、向量计算部12A、指标值计算部13A、预测模型生成部14A、预测用数据输入部20以及痴呆症预测部21A。向量计算部12A的更为具体的功能构成包括文本向量计算部121和单词向量计算部122。另外，本实施方式的痴呆症预测装置作为存储介质而具备预测模型存储部30A。此外，以下为了便于说明，将由单词提取部11A、向量计算部12A以及指标值计算部13A构成的部分称为关联度指标值计算部100A。

关联度指标值计算部100A是输入与文本相关的文本数据，计算并输出反映文本与其中所包含的单词之间的关联度的关联度指标值的部分。另外，本实施方式的痴呆症预测装置由关联度指标值计算部100A对表示患者进行的自由对话的内容的文本进行分析，利用由此计算出的关联度指标值，并根据患者的自由对话的内容预测患者的痴呆症的病情程度。此外，通过学习用数据输入部10、关联度指标值计算部100A以及预测模型生成部14A构成本发明的预测模型生成装置。

本说明书中的“文本”一般是指包含两个以上的由句号分开的一个句子(sentence)的文本。尤其是在本说明书中，将医生与患者之间进行的一系列自由对话(连续对话)中患者多次说话的发言内容(相当于多个句子)综合作为一个文本(text)进行处理。即，针对一个患者的一次自由对话(一系列对话)，定义包含多个句子的一个文本。

图1所示的各功能块可以由硬件、DSP(Digital Signal Processor：数字信号处理器)、软件中的任一种构成。例如，在由软件构成的情况下，上述各功能块实际上具备计算机的CPU、RAM、ROM等而构成，并通过运行存储于RAM或ROM、硬盘或者半导体存储器等记录介质中的程序而实现。

学习用数据输入部10将m个文本作为学习用数据输入，该m个文本分别表示痴呆症的病情程度已知的m名(m是2以上的任意整数)患者进行的自由对话的内容。例如，学习用数据输入部10将已通过预先训练过的医生赋予了MMSE得分的患者与医生之间进行的自由对话的语音转换成文字数据，并将该文字数据中包含的患者的说话部分的文本作为学习用数据输入。该情况下，针对患者而言已知的痴呆症的病情程度是指MMSE得分的值。学习用数据输入部10将分别从m名患者的自由对话中取得的m个文本作为多个学习用数据输入。

患者与医生之间的自由对话例如以5～10分钟左右的问诊形式进行。即，以医生向患者提出问题，患者回答该问题的形式反复进行对话。然后，利用麦克风输入此时的对话进行录音，并使用人工转录或自动语音识别技术，将一系列对话(自由对话)的语音转换成文字数据。仅提取该文字数据中患者的说话部分作为学习用数据。此外，也可以在将自由对话的语音转换成文字数据时，仅将患者的说话部分转换成文字数据。

单词提取部11A是权利要求中的“元素提取部”的一例，其对通过学习用数据输入部10作为学习用数据输入的m个文本进行分析，从该m个文本中提取n个(n是2以上的任意整数)单词(相当于权利要求中的分解元素)。作为文本的分析方法，例如可以使用公知的语素分析。在此，单词提取部11A既可以提取通过语素分析分割的所有词类的语素作为单词，也可以仅提取特定词类的语素作为单词。

此外，有时m个文本中包含多个相同的单词。该情况下，单词提取部11A并非提取多个相同的单词，而是仅提取一个。即，单词提取部11A所提取的n个单词是指n种单词。其中，所提取的n个单词分别附带有表示其在文本中的出现频率的信息。在此，单词提取部11A也可以计测从m个文本提取出同一单词的频率，并按出现频率由高到低提取n个(n种)单词、或者提取出现频率为阈值以上的n个(n种)单词。

罹患痴呆症的患者有时会出现多次重复已说过的话这样的倾向。另外，罹患痴呆症的患者有时也会出现难以自主说话，且针对医生的问题连续说出同样的话语这样的重复对话(鹦鹉学舌)的倾向。因此，通过单词提取部11A从包含上述痴呆症特有的对话特征的自由对话的文本中提取n个单词。

向量计算部12A根据m个文本和n个单词计算出m个文本向量和n个单词向量。在此，文本向量计算部121通过将作为单词提取部11A的分析对象的m个文本分别按照规定的规则在q个(q为2以上的任意整数)维度上向量化，从而计算出由q个轴分量构成的m个文本向量。另外，单词向量计算部122通过将单词提取部11A提取出的n个单词分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的n个单词向量。

在本实施方式中，作为一例，如以下那样计算文本向量和单词向量。现在，考虑由m个文本和n个单词构成的集合S＝＜d∈D，w∈W＞。在此，对于各文本d_i(i＝1、2、……、m)和各单词w_j(j＝1、2、……、n)分别关联文本向量d_i→和单词向量w_j→(以下，设定符号“→”是指向量)。然后，针对任意的单词w_j和任意的文本d_i计算出下式(1)所示的概率P(w_j|d_i)。

【数式1】

此外，该概率P(w_j|d_i)例如是能够依照论文“‘Distributed Representations ofSentences and Documents’by Quoc Le and Tomas Mikolov,Google Inc,Proceedingsof the 31^st International Conference on Machine Learning Held in Bejing,Chinaon 22-24 June 2014”中公开的概率p而算出的值，其中，该论文中记载了通过段向量对文本、文档进行评价的内容。在该论文中，例如当存在“the”、“cat”、“sat”这三个单词时，预测第四个单词为“on”，并披露了该预测概率p的计算式。该论文中记载的概率p(wt|wt-k、……、wt+k)是根据多个单词wt-k、……、wt+k预测出另一个单词wt时的正确概率。

相对于此，本实施方式中使用的式(1)所示的概率P(w_j|d_i)表示从m个文本中的一个文本d_i预测出n个单词中的一个单词w_j的正确概率。从一个文本d_i预测出一个单词w_j具体是指：当出现某一个文本d_i时，预测其中包含单词w_j的可能性。

在式(1)中，使用以e为底数、以单词向量w→与文本向量d→的内积值为指数的指数函数值。然后，计算出根据作为预测对象的文本d_i和单词w_j的组合计算出的指数函数值与根据文本d_i和n个单词w_k(k＝1、2、……、n)的各组合计算出的n个指数函数值的合计值的比率，作为从一个文本d_i预测出一个单词w_j的正确概率。

这里，单词向量w_j→与文本向量d_i→的内积值也可以说是将单词向量w_j→投影至文本向量d_i→的方向时的标量值、即单词向量w_j→所具有的文本向量d_i→的方向上的分量值。可以认为这是表示单词w_j对文本d_i的贡献程度。因此，使用利用上述内积算出的指数函数值求出针对一个单词w_j算出的指数函数值与针对n个单词w_k(k＝1、2、……、n)算出的指数函数值的合计的比率，相当于求出从一个文本d_i预测出n个单词中的一个单词w_j的正确概率。

此外，由于式(1)中d_i和w_j是对称的，因此，也可以计算出从n个单词中的一个单词w_j预测出m个文本中的一个文本d_i的概率P(d_i|w_j)。从一个单词w_j预测出一个文本d_i是指：在出现某一个单词w_j时预测出该单词w_j包含在文本d_i中的可能性。该情况下，文本向量d_i→与单词向量w_j→的内积值也可以说是将文本向量d_i→投影至单词向量w_j→的方向时的标量值、即文本向量d_i→所具有的单词向量w_j→的方向上的分量值。可以认为这是表示文本d_i对单词w_j的贡献程度。

此外，此处示出了使用以单词向量w→与文本向量d→的内积值为指数的指数函数值的计算例，但并非必须使用指数函数值。只要是利用了单词向量w→与文本向量d→的内积值的计算式即可，例如，也可以利用内积值本身(其中，包含进行用于使内积值始终为正值的规定运算(例如内积值+1)的情况)的比率求出概率。

接着，向量计算部12A如下式(2)所示计算出使值L最大化这样的文本向量d_i→和单词向量w_j→，其中，该值L是将通过上述式(1)算出的概率P(w_j|d_i)针对所有集合S合计后的值。即，文本向量计算部121和单词向量计算部122针对m个文本和n个单词的全部组合计算出通过上述式(1)算出的概率P(w_j|d_i)，并将它们的合计值作为目标变量L，计算出使该目标变量L最大化的文本向量d_i→和单词向量w_j→。

【数式2】

使针对m个文本和n个单词的所有组合算出的概率P(w_j|d_i)的合计值L最大化是指：使从某一个文本d_i(i＝1、2、……、m)预测出某一个单词w_j(j＝1、2、……、n)的正确概率最大化。即，可以说向量计算部12A计算出该正确概率最大化这样的文本向量d_i→和单词向量w_j→。

在此，在本实施方式中，如上所述，向量计算部12A通过将m个文本d_i分别在q个维度上向量化而算出由q个轴分量构成的m个文本向量d_i→，并通过将n个单词分别在q个维度上向量化而算出由q个轴分量构成的n个单词向量w_j→。这相当于使q个轴方向可变，算出上述目标变量L最大化这样的文本向量d_i→和单词向量w_j→。

指标值计算部13A通过分别取得向量计算部12A计算出的m个文本向量d_i→与n个单词向量w_j→的内积，从而算出反映m个文本d_i和n个单词w_j之间的关联度的m×n个关联度指标值。在本实施方式中，指标值计算部13A如下式(3)所示取得文本矩阵D与单词矩阵W之积，从而算出将m×n个关联度指标值作为各元素的指标值矩阵DW，其中，文本矩阵D将m个文本向量d_i→的各q个轴分量(d₁₁～d_mq)作为各元素，单词矩阵W将n个单词向量w_j→的各q个轴分量(w₁₁～w_nq)作为各元素。在此，W^t是单词矩阵的转置矩阵。

【数式3】

可以说这样计算出的指标值矩阵DW的各元素dw_ij(i＝1、2、……、m，j＝1、2、……、n)表示哪个单词对哪个文本的贡献程度如何。例如，第一行第二列的元素dw₁₂是表示单词w₂对文本d₁的贡献程度如何的值。由此，指标值矩阵DW的各行可以用作评价文本的相似度的行，各列可以用作评价单词的相似度的列。

预测模型生成部14A使用指标值计算部13A计算出的m×n个关联度指标值生成预测模型，其中，该预测模型用于根据针对一个文本d_i由n个关联度指标值dw_ij(j＝1、2、……、n)构成的文本指标值组预测痴呆症的病情程度。此处预测的痴呆症的病情程度是指MMSE的得分的值。即，预测模型生成部14A生成针对根据MMSE的得分已知(例如x分)的患者的自由对话算出的文本指标值组预测为尽可能接近于x分的得分这样的预测模型。然后，预测模型生成部14A将生成的预测模型存储至预测模型存储部30A中。

图2是用于说明文本指标值组的图。如图2所示，在例如第一个文本d₁的情况下，文本指标值组相当于指标值矩阵DW的第一行中包含的n个关联度指标值dw₁₁～dw_1n。同样地，在第二个文本d₂的情况下，相当于指标值矩阵DW的第二行中包含的n个关联度指标值dw₂₁～dw_2n。以下，与第m个文本d_m相关的文本指标值组(n个关联度指标值dw_m1～dw_mn)均是同样的。

预测模型生成部14A使用指标值计算部13A计算出的m×n个关联度指标值dw₁₁～dw_mn，针对各文本d_i(i＝1、2、……、m)的文本指标值组分别计算出与痴呆症的病情程度关联的特征量，并根据该计算出的特征量生成用于从一个文本指标值组预测痴呆症的病情程度的预测模型。在此，预测模型生成部14A生成的预测模型是将文本d_i的文本指标值组作为输入、将MMSE的得分作为解而输出的学习模型。

例如，预测模型生成部14A生成的预测模型的形态可以是回归模型(以线性回归、逻辑回归、支持向量机等为基础的学习模型)、树模型(以决策树、回归树、随机森林、梯度提升树等为基础的学习模型)、神经网络模型(以感知器、卷积神经网络、递归型神经网络、残差网络、RBF网络、随机性神经网络、脉冲神经网络、复数神经网络等为基础的学习模型)、贝叶斯模型(以贝叶斯推断等为基础的学习模型)、聚类模型(以k近邻法、层次聚类、非层次聚类、主题模型等为基础的学习模型)等中的任意一个。此外，这里所列举的分类模型仅为一例，并不限定于此。

预测模型生成部14A在生成预测模型时算出的特征量只要通过规定的算法算出即可。换言之，预测模型生成部14A中计算特征量的计算方法可以任意地设计。例如，预测模型生成部14A对于各文本d_i的文本指标值组分别以使通过加权计算得到的值接近于表示痴呆症的病情程度的已知值(MMSE的得分)的方式进行规定的加权计算，并使用针对文本指标值组的加权值作为特征量，生成用于从文本d_i的文本指标值组预测痴呆症的病情程度(MMSE的得分)的预测模型。

即，针对由指标值矩阵DW的第一行中包含的n个关联度指标值dw₁₁～dw_1n构成的第一个文本d₁的文本指标值组，以使a₁₁·dw₁₁+a₁₂·dw₁₂+……+a_1n·dw_1n≈MMSE的已知得分的方式算出加权值{a₁₁、a₁₂、……、a_1n}作为特征量。另外，针对由指标值矩阵DW的第二行中包含的n个关联度指标值dw₂₁～dw_2n构成的第二个文本d₂的文本指标值组，以使a₂₁·dw₂₁+a₂₂·dw₂₂+……+a_2n·dw_2n≈MMSE的已知得分的方式算出加权值{a₂₁、a₂₂、……、a_2n}作为特征量。以下同样地，针对第m个文本d_m的文本指标值组，以使a_m1·dw_m1+a_m2·dw_m2+……+a_mn·dw_mn≈MMSE的已知得分的方式算出加权值{a_m1、a_m2、……、a_mn}作为特征量。然后，生成上述特征量分别与MMSE的已知得分相关联这样的预测模型。

此外，此处说明了将m组加权值{a₁₁、a₁₂、……、a_1n}、……、{a_m1、a_m2、……、a_mn}分别用作特征量的例子，但并不限定于此。例如，也可以提取出一个或多个加权值、或者使用了该多个加权值的规定的运算值等作为特征量，其中，该一个或多个加权值具有从与m名患者相关的m个学习用数据得到的m个文本指标值组中的、从MMSE得分相同的患者的学习用数据得到的文本指标值组彼此共通的特征。

预测用数据输入部20将分别表示作为预测对象的m′名(m′是1以上的任意整数)患者进行的自由对话的内容的m′个文本作为预测用数据输入。即，预测用数据输入部20将MMSE得分未知的患者与医生之间进行的自由对话的语音转换成文字数据，并将该文字数据中包含的患者的讲话部分的文本作为预测用数据输入。从预测对象的患者与医生的自由对话取得m′个文本的方法，与从学习对象的患者与医生的自由对话取得m个文本的上述方法是同样的。

作为预测对象的患者可以是初诊患者，也可以是被诊断为疑似患有痴呆症的复诊患者。在将初诊患者作为预测对象的情况下，不用对患者实施MMSE，仅在患者与医生之间通过问诊进行自由对话，便可如下所述预测该患者是否疑似患有痴呆症、或者患有痴呆症时的病情程度。另一方面，在将复诊患者作为预测对象的情况下，也不用对该患者实施MMSE，仅在患者与医生之间通过问诊进行自由对话便可预测痴呆症的病情程度。由此，能够不受患者针对MMSE的练习效果影响地判断症状是改善还是恶化。

痴呆症预测部21A通过将针对预测用数据输入部20输入的预测用数据执行单词提取部11A、文本向量计算部121、单词向量计算部122以及指标值计算部13A的处理而得到的关联度指标值应用于预测模型生成部14A生成的预测模型(存储在预测模型存储部30A中的预测模型)，从而预测作为预测对象的m′名患者的痴呆症的病情程度。

例如，在通过预测用数据输入部20输入了从MMSE得分未知的m′名患者的自由对话中取得的m′个文本作为预测用数据的情况下，通过根据痴呆症预测部21A的指示对该m′个文本执行关联度指标值计算部100A的处理，从而得到m′个文本指标值组。痴呆症预测部21通过将关联度指标值计算部100A算出的m′个文本指标值组作为输入数据提供给预测模型，从而分别预测m′名患者的痴呆症的病情程度。

在该预测时，单词提取部11A从通过预测用数据输入部20作为预测用数据输入的m′个文本中提取n个单词。单词提取部11A在预测时从m′个文本中提取的单词的数量与单词提取部11A在学习时从m个文本中提取的单词的数量n相同。此外，例如有时m′＝1，即从基于一名患者的自由对话的一个文本中提取n个单词。因此，优选预先预想到5～10分钟左右的问诊形式的自由对话中一名患者可能说出的单词的标准种类来确定n的值，以免产生从预测用数据的一个文本中提取出的n个单词与从学习用数据的m个文本中提取出的n个单词全部不重复(重复是指单词相同)的事态。

另外，在预测时，文本向量计算部121通过将m′个文本分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的m′个文本向量。单词向量计算部122通过将n个单词分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的n个单词向量。指标值计算部13A通过分别取得m′个文本向量与n个单词向量的内积，从而计算出反映m′个文本与n个单词之间的关联度的m′×n个关联度指标值。痴呆症预测部21A通过将指标值计算部13A计算出的m′个关联度指标值应用于预测模型存储部30A中存储的预测模型，从而预测作为预测对象的m′名患者的痴呆症的病情程度。

此外，为了减轻预测时的运算负荷，也可以省略通过单词向量计算部122计算单词向量，而预先存储学习时计算出的n个单词向量，并在预测时使用该n个单词向量。这样，预测时读出并利用单词向量计算部122在学习时算出的n个单词向量的处理也作为对预测用数据执行文本向量计算部122的处理的一个方式而包含在内。

图3是表示上述那样构成的第一实施方式涉及的痴呆症预测装置的动作例的流程图。图3中的(a)示出生成预测模型的学习时的动作例，(b)示出使用生成的预测模型预测痴呆症的病情程度的预测时的动作例。

在图3中的(a)所示的学习时，首先，学习用数据输入部10将分别表示痴呆症的病情程度(MMSE得分)已知的m名患者进行的自由对话的内容的m个文本作为学习用数据输入(步骤S1)。单词提取部11A对学习用数据输入部10输入的m个文本进行分析，从该m个文本中提取n个单词(步骤S2)。

接着，向量计算部12A根据学习用数据输入部10输入的m个文本和单词提取部11A提取出的n个单词，计算出m个文本向量d_i→和n个单词向量w_j→(步骤S3)。然后，指标值计算部13A分别取得m个文本向量d_i→与n个单词向量w_j→的内积，从而计算出反映m个文本d_i和n个单词w_j之间的关联度的m×n个关联度指标值(将m×n个关联度指标值作为各元素的指标值矩阵DW)(步骤S4)。

进而，预测模型生成部14A使用如上所述由关联度指标值计算部100A从与m名患者相关的学习用数据算出的m×n个关联度指标值，生成用于根据针对一个文本d_i由n个关联度指标值dw_ij构成的文本指标值组预测痴呆症的病情程度的预测模型，并将生成的预测模型存储至预测模型存储部30A中(步骤S5)。至此，学习时的动作结束。

在图3中的(b)所示的预测时，首先，预测用数据输入部20将分别表示作为预测对象的m′名患者进行的自由对话的内容的m′个文本作为预测用数据输入(步骤S11)。痴呆症预测部21A将预测用数据输入部20输入的预测用数据供给至关联度指标值计算部100A，并指示计算出关联度指标值。

根据该指示，单词提取部11A对预测用数据输入部20输入的m′个文本进行分析，从该m′个文本中提取n个单词(步骤S12)。接着，向量计算部12A根据预测用数据输入部20输入的m′个文本和单词提取部11A提取出的n个单词，计算出m′个文本向量d_i→和n个单词向量w_j→(步骤S13)。

然后，指标值计算部13A分别取得m′个文本向量d_i→与n个单词向量w_j→的内积，从而计算出反映m′个文本d_i与n个单词w_j之间的关联度的m′×n个关联度指标值(将m′×n个关联度指标值作为各元素的指标值矩阵DW)(步骤S14)。指标值计算部13A将计算出的m′×n个关联度指标值供给至痴呆症预测部21A。

痴呆症预测部21A通过将从关联度指标值计算部100A供给的m′×n个关联度指标值应用于预测模型存储部30A中存储的预测模型，从而预测作为预测对象的m′名患者的痴呆症的病情程度(步骤S15)。由此，预测时的动作结束。

如以上详细说明，在第一实施方式中，通过将表示痴呆症的病情程度已知的患者所进行的自由对话的内容的m个文本作为学习用数据输入，并计算从该输入的文本计算出的文本向量与从文本内包含的单词计算出的单词向量的内积，从而计算出反映文本与单词之间的关联度的关联度指标值，并使用该关联度指标值生成预测模型。另外，在针对作为预测对象的患者预测痴呆症的病情程度时，通过将表示作为预测对象的患者所进行的自由对话的内容的m′个文本作为预测用数据输入，并将从该输入的预测用数据同样地计算出的关联度指标值应用于预测模型，从而预测作为预测对象的患者的痴呆症的病情程度。

根据如此构成的第一实施方式，由于是通过分析患者所进行的自由对话来预测痴呆症的病情程度，因而不需要进行简易精神状态检查(MMSE)。因此，即使在反复测定痴呆症的病情程度的情况下，也能够得到排除了患者的练习效果的测定结果(预测结果)。尤其是，若患者已罹患痴呆症，则会在自由对话中发现包含重复发言的单词等的痴呆症特有的对话特征，由于是在反映上述对话特征的状态下计算出关联度指标值，并使用该关联度指标值生成预测模型，因此，能够根据患者进行的自由对话预测痴呆症的病情程度。

(第二实施方式)

接着，根据附图对本发明的第二实施方式进行说明。图4是表示第二实施方式涉及的痴呆症预测装置的功能构成例的框图。在该图4中，标注了与图1所示的符号相同符号的部件具有相同的功能，故此处省略重复的说明。

如图4所示，第二实施方式涉及的痴呆症预测装置取代关联度指标值计算部100A、预测模型生成部14A、痴呆症预测部21A以及预测模型存储部30A而具备关联度指标值计算部100B、预测模型生成部14B、痴呆症预测部21B以及预测模型存储部30B。第二实施方式涉及的关联度指标值计算部100B取代单词提取部11A、向量计算部12A以及指标值计算部13A而具备词类提取部11B、向量计算部12B以及指标值计算部13B。向量计算部12B的更为具体的功能构成取代单词向量计算部122而具备词类向量计算部123。此外，通过学习用数据输入部10、关联度指标值计算部100B以及预测模型生成部14B构成本发明的预测模型生成装置。

第二实施方式涉及的关联度指标值计算部100B是输入与第一实施方式相同的与文本相关的文本数据，计算并输出反映文本与其中所包含的各语素的词类之间的关联度的关联度指标值。

词类提取部11B是权利要求中的“元素提取部”的一例，对学习用数据输入部10作为学习用数据输入的m个文本进行分析，从该m个文本中提取p个(p为2以上的任意整数)词类(相当于权利要求中的分解元素)。作为文本的分析方法，例如可以使用公知的语素分析。在此，针对通过语素分析而被分割的各语素，词类提取部11B既可以如图5中的(a)那样针对每个单一语素提取一个词类，也可以如图5中的(b)那样针对连续的多个语素提取一组词类。

此外，本实施方式中提取的词类不仅是动词、形容词、形容动词、名词、代词、数词、连体词、副词、连词、感叹词、助动词、助词这样的大类，还如图6所示提取细分至中类、小类、细类的词类。图6示出了词类提取部11B提取出的词类的一例。此处所示的词类仅为一例，本发明并不限定于此。

此外，在m个文本中，有时包含多个相同的词类(或者相同的词类组)。该情况下，词类提取部11B并非提取多个相同的词类(或者相同的词类组)而是仅提取一个。即，词类提取部11B所提取的p个(包含p组的概念。下同)词类是指p种词类。其中，提取出的p个词类分别附带有表示其在文本中的出现频率的信息。

在罹患痴呆症的患者中，有时会出现想不起专有名词而多用“它(あれ)”、“这个(これ)”、“那个(それ)”等的指示词的倾向。另外，在罹患痴呆症的患者中，有时会出现无法说出下一句话而多用“那个……(あの)”、“嗯……(うーん)”、“唉……(えー)”等语气词的倾向。因此，根据上述痴呆症特有的对话特征，存在会在自由对话的文本中多次出现的相同词类。因此，通过词类提取部11B从包含上述痴呆症特有的对话特征的自由对话的文本中提取p个词类。

向量计算部12B从m个文本和p个词类计算出m个文本向量和p个词类向量。在此，文本向量计算部121通过将作为词类提取部11B的分析对象的m个文本分别按照规定的规则在q个维度上进行向量化，从而计算出由q个轴分量构成的m个文本向量。另外，词类向量计算部123通过将词类提取部11B提取出的p个词类分别按照规定的规则在q个维度上进行向量化，从而计算出由q个轴分量构成的p个词类向量。

文本向量和词类向量的计算方法与第一实施方式相同。即，在第二实施方式中，向量计算部12B考虑由m个文本和p个词类构成的集合S＝＜d∈D，h∈H＞。在此，对各文本d_i(i＝1、2、……、m)和各词类h_j(j＝1、2、……、p)分别关联文本向量d_i→和词类向量h_j→。然后，向量计算部12B针对m个文本和p个词类的所有组合计算出与上式(1)同样算出的概率P(h_j|d_i)，并将它们的合计值作为目标变量L，计算出使该目标变量L最大化的文本向量d_i→和词类向量h_j→。

指标值计算部13B通过分别取得由向量计算部12B算出的m个文本向量d_i→与p个词类向量h_j→的内积，从而计算出反映m个文本d_i和p个词类h_j之间的关联度的m×p个关联度指标值。在第二实施方式中，指标值计算部13B如下式(4)所示取得文本矩阵D与词类矩阵H之积，从而算出将m×p个关联度指标值作为各元素的指标值矩阵DH，其中，文本矩阵D将m个文本向量d_i→的各q个轴分量(d₁₁～d_mq)作为各元素，词类矩阵H将p个词类向量h_j→的各q个轴分量(h₁₁～h_pq)作为各元素。在此，H^t是词类矩阵的转置矩阵。

【数式4】

预测模型生成部14B使用指标值计算部13B计算出的m×p个关联度指标值生成预测模型，其中，该预测模型用于根据针对一个文本d_i由p个关联度指标值dh_ij(j＝1、2、……、p)构成的文本指标值组预测痴呆症的病情程度(MMSE得分值)。即，预测模型生成部14B通过与第一实施方式中说明的方法相同的方法，生成针对根据MMSE得分已知(例如x分)的患者的自由对话计算出的文本指标值组预测为尽可能接近于x分的得分这样的预测模型。然后，预测模型生成部14B将生成的预测模型存储至预测模型存储部30B中。

痴呆症预测部21B通过将针对预测用数据输入部20输入的预测用数据执行词类提取部11B、文本向量计算部121、词类向量计算部123以及指标值计算部13B的处理而得到的关联度指标值应用于预测模型生成部14B生成的预测模型(存储在预测模型存储部30B中的预测模型)，从而预测作为预测对象的m′名患者的痴呆症的病情程度。

如以上详细说明，在第二实施方式中，通过将表示痴呆症的病情程度已知的患者所进行的自由对话的内容的m个文本作为学习用数据输入，并计算从该输入的文本计算出的文本向量与从文本内包含的语素的词类计算出的词类向量的内积，从而计算出反映文本与词类之间的关联度的关联度指标值，并使用该关联度指标值生成预测模型。另外，在针对作为预测对象的患者预测痴呆症的病情程度时，通过将表示作为预测对象的患者所进行的自由对话的内容的m′个文本作为预测用数据输入，并将从该输入的预测用数据同样地计算出的关联度指标值应用于预测模型，从而预测作为预测对象的患者的痴呆症的病情程度。

在如此构成的第二实施方式中，由于是通过分析患者所进行的自由对话来预测痴呆症的病情程度，因而也不需要进行简易精神状态检查(MMSE)。因此，即使在反复测定痴呆症的病情程度的情况下，也能够得到排除了患者的练习效果的测定结果(预测结果)。尤其是，若患者已罹患痴呆症，则会在自由对话中发现包含多个规定词类的语素的痴呆症特有的对话特征，由于是在反映上述对话特征的状态下计算出关联度指标值，并使用该关联度指标值生成预测模型，因而能够从患者进行的自由对话预测痴呆症的病情程度。

(第三实施方式)

接着，根据附图对本发明的第三实施方式进行说明。图7是表示第三实施方式涉及的痴呆症预测装置的功能构成例的框图。在该图7中，标注了与图4所示的符号相同符号的部件具有相同的功能，故此处省略重复的说明。第三实施方式使用第一实施方式中说明的根据文本向量和单词向量计算出的指标值矩阵DW、和第二实施方式中说明的根据文本向量和词类向量计算出的指标值矩阵DH这两者。

如图7所示，第三实施方式涉及的痴呆症预测装置取代关联度指标值计算部100B、预测模型生成部14B、痴呆症预测部21B以及预测模型存储部30B而具备关联度指标值计算部100C、预测模型生成部14C、痴呆症预测部21C以及预测模型存储部30C。第三实施方式涉及的关联度指标值计算部100C具备单词提取部11A和词类提取部11B，并取代向量计算部12B和指标值计算部13B而具备向量计算部12C和指标值计算部13C。向量计算部12C的更为具体的功能构成具备文本向量计算部121、单词向量计算部122以及词类向量计算部123。此外，通过学习用数据输入部10、关联度指标值计算部100C以及预测模型生成部14C构成本发明的预测模型生成装置。

指标值计算部13C如上述式(3)所示分别取得m个文本向量d_i→与n个单词向量w_j→的内积，从而计算出反映m个文本d_i和n个单词w_j之间的关联度的m×n个关联度指标值dw_ij(第一评价值矩阵DW)。此外，指标值计算部13C如上述式(4)所示分别取得m个文本向量d_i→与p个词类向量h_j→的内积，从而计算出反映m个文本d_i与p个词类h_j之间的关联度的m×p个关联度指标值dh_ij(第二评价值矩阵DH)。

预测模型生成部14C使用指标值计算部13C计算出的m×n个关联度指标值dw_ij及m×p个关联度指标值dh_ij生成预测模型，其中，该预测模型用于根据针对一个文本d_i由n个关联度指标值构成的文本指标值组dw_ij(j＝1、2、……、n)及由p个关联度指标值构成的文本指标值组dh_ij(j＝1、2、……、p)预测痴呆症的病情程度(MMSE的得分值)。然后，预测模型生成部14C将生成的预测模型存储至预测模型存储部30C中。

在此，关于预测模型生成部14C如何使用两组文本指标值组dw_ij、dh_ij来生成预测模型，可以任意进行设计。例如，如图8中的(a)所示，可以将文本与单词之间的第一指标值矩阵DW和文本与词类之间的第二指标值矩阵DH沿横向(行方向)排列，并将属于同一行i的文本指标值组dw_ij、dh_ij连接，生成包含(n+p)个关联度指标值的一个文本指标值组，并生成用于根据该文本指标值组预测痴呆症的病情程度的预测模型。

或者，如图8中的(b)所示，也可以将文本与单词之间的第一指标值矩阵DW中包含的第i行的文本指标值组dw_ij和文本与词类之间的第二指标值矩阵DH中包含的同样第i行的文本指标值组dh_ij沿纵向(列方向)排列，生成2×n维的文本指标值组矩阵，并生成用于根据该文本指标值组矩阵预测痴呆症的病情程度的预测模型。在图8的(b)的例子中，预想为n＞p，针对2×n维的文本指标值组矩阵中的第二行的矩阵成分，将文本指标值组dh_ij的值设定为左对齐，并将该第二行的左端起超过p个的矩阵分量的值全部设为0。

此外，也可以通过对m×n维的第一指标值矩阵DW进行之后第四实施方式中所述的降维处理而生成m×p维的第一指标值矩阵DW_SVD，将该降维后的第一指标值矩阵DW_SVD内包含的第i行的文本指标值组dw_ij(j＝1～p)和第二指标值矩阵DH内包含的同样第i行的文本指标值组dh_ij(j＝1～p)沿纵向(列方向)排列而生成2×p维的文本指标值组矩阵，并生成用于根据该文本指标值组矩阵预测痴呆症的病情程度的预测模型。

进而，作为又一例，也可以如图8中的(c)所示，将文本与单词之间的第一指标值矩阵DW中包含的第i行的文本指标值组dw_ij作为1×n维的第一文本指标值组矩阵，将文本与词类之间的第二指标值矩阵DH中包含的同样第i行的文本指标值组dh_ij作为n×1维的第二文本指标值组矩阵(其中，将超过p个但不足n个的不足部分的矩阵分量的值设为0)，并计算出第一文本指标值组矩阵与第二文本指标值组矩阵的内积。然后，生成用于根据计算出的值预测痴呆症的病情程度的预测模型。

该情况下，也可以对文本与单词之间的第一指标值矩阵DW进行降维而生成m×p维的第一指标值矩阵DW_SVD，将该降维后的第一指标值矩阵DW_SVD内包含的第i行的文本指标值组dw_ij作为1×p维的第一文本指标值组矩阵，将文本与词类之间的第二指标值矩阵DH内包含的同样为第i行的文本指标值组dh_ij作为p×1维的第二文本指标值组矩阵，计算出第一文本指标值组矩阵与第二文本指标值组矩阵的内积。

痴呆症预测部21C通过将针对预测用数据输入部20输入的预测用数据执行单词提取部11A、词类提取部11B、文本向量计算部121、单词向量计算部122、词类向量计算部123以及指标值计算部13C的处理而得到的关联度指标值应用于预测模型生成部14C生成的预测模型(存储在预测模型存储部30C中的预测模型)，从而预测作为预测对象的m′名患者的痴呆症的病情程度。

如以上详细说明，在第三实施方式中，通过将表示痴呆症的病情程度已知的患者所进行的自由对话的内容的m个文本作为学习用数据输入，并计算出从该输入的文本计算出的文本向量与从文本内包含的单词计算出的单词向量的内积，从而计算出反映文本与单词之间的关联度的关联度指标值，并且，计算出从该输入的文本计算出的文本向量与从文本内包含的语素的词类计算出的词类向量的内积，从而计算出反映文本与词类之间的关联度的关联度指标值，并使用该两个关联度指标值生成预测模型。另外，在针对作为预测对象的患者预测痴呆症的病情程度时，通过将表示作为预测对象的患者所进行的自由对话的内容的m′个文本作为预测用数据输入，并将从该输入的预测用数据同样地计算出的关联度指标值应用于预测模型，从而预测作为预测对象的患者的痴呆症的病情程度。

在如此构成的第三实施方式中，由于是通过分析患者所进行的自由对话来预测痴呆症的病情程度，因而也不需要进行简易精神状态检查(MMSE)。因此，即使在反复测定痴呆症的病情程度的情况下，也能够得到排除了患者的练习效果的测定结果(预测结果)。尤其是，在第三实施方式中，由于是针对自由对话中使用的单词和词类在反映痴呆症特有的对话特征的状态下计算出关联度指标值，并使用该关联度指标值生成预测模型，因此，能够更为准确地从患者进行的自由对话预测痴呆症的病情程度。

(第四实施方式)

接着，根据附图对本发明的第四实施方式进行说明。图9是表示第四实施方式涉及的痴呆症预测装置的功能构成例的框图。在该图9中，标注了与图1所示的符号相同符号的部件具有相同的功能，故此处省略重复的说明。此外，以下作为第一实施方式的变形例而对第四实施方式进行说明，但如图10中的(a)、(b)分别所示，第四实施方式同样可以应用为第二实施方式的变形例或者第三实施方式的变形例。

如图9所示，第四实施方式涉及的痴呆症预测装置取代关联度指标值计算部100A、预测模型生成部14A、痴呆症预测部21A以及预测模型存储部30A而具备关联度指标值计算部100D、预测模型生成部14D、痴呆症预测部21D以及预测模型存储部30D。第四实施方式涉及的关联度指标值计算部100D除了图1所示的构成之外还具备降维部15。此外，通过学习用数据输入部10、关联度指标值计算部100D以及预测模型生成部14D构成本发明的预测模型生成装置。

降维部15通过使用指标值计算部13A计算出的m×n个关联度指标值进行规定的降维处理，从而计算出m×k个(k是满足1≤k＜n的任意整数)关联度指标值。降维处理例如可以使用作为矩阵分解的方法而公知的奇异值分解(singular value decomposition：SVD)。

即，降维部15将如上述式(3)那样算出的评价值矩阵DW分解成三个矩阵U、S、V。在此，矩阵U是m×k维的左奇异矩阵，各列是DW*DW^t的特征向量(DW^t表示评价值矩阵DW的转置矩阵)。矩阵S是k×k维的正方矩阵，对角矩阵分量表示评价值矩阵DW的奇异值，除此以外的值全部为0。矩阵V是k×n维的右奇异矩阵，各行是DW^t*DW的特征向量。此外，压缩后的维度k既可以是预先确定的固定值，也可以指定任意的值。

降维部15通过利用上述那样分解的三个矩阵中的右奇异矩阵V的转置矩阵V^t转换评价值矩阵DW，从而对评价值矩阵DW进行降维。即，通过计算m×n维的评价值矩阵DW与n×k维的右奇异转置矩阵V^t的内积，将m×n维的评价值矩阵DW降维为m×k维的评价值矩阵DW_SVD(DW_SVD＝DW*V^t)。此外，DW_SVD表示将评价值矩阵DW通过SVD进行降维后的矩阵，满足DW≈U*S*V＝DW_SVD*V的关系。

这样，通过使用SVD的方法对评价值矩阵DW进行降维，能够尽可能不损害评价值矩阵DW所表达的特征地对评价值矩阵DW进行低秩近似。此外，此处说明了利用右奇异矩阵V的转置矩阵V^t转换评价值矩阵DW的例子，但在m的值与n的值一致的情况下，也可以利用左奇异矩阵U来转换评价值矩阵DW(DW_SVD＝DW*U)。

预测模型生成部14D使用经过降维部15降维后的m×k个关联度指标值生成预测模型，其中，该预测模型用于根据针对一个文本d_i由k个关联度指标值dw_ij(i＝1、2、……、k)构成的文本指标值组预测痴呆症的病情程度。然后，预测模型生成部14D将生成的预测模型存储至预测模型存储部30D中。

痴呆症预测部21D通过将针对预测用数据输入部20输入的预测用数据执行单词提取部11A、文本向量计算部121、单词向量计算部122、指标值计算部13A以及降维部15的处理而得到的关联度指标值应用于预测模型生成部14D生成的预测模型(存储在预测模型存储部30D中的预测模型)，从而预测作为预测对象的m′名患者的痴呆症的病情程度。

在上述第一实施方式中，需要预想到5～10分钟左右的问诊形式的自由对话中一名患者说出的单词的标准种类，并选择n的值。当n的值小时，作为预测对象的一名患者说出的单词与从学习用数据的文本提取出的n种单词的重复少，有可能连一个重复都没有。另外，不包含在n个中的单词(单词提取部11未提取出的单词)的信息未加入评价值矩阵DW中。因此，n的值越小，则预测的精度越差。另一方面，若选择非常大的n值，则重复为0个的可能性变少，不包含在n个内的单词也变少，但矩阵的大小变大，计算量增加。另外，出现频率低的单词也作为特征量而包含在内，容易引发过度学习。

相对于此，根据第四实施方式，能够将m个文本中包含的多个(例如所有)单词作为n个单词提取出并生成评价值矩阵DW，并算出在反映该评价值矩阵DW所表达的特征的状态下降维的评价值矩阵DW_SVD。由此，能够在少量的计算负荷下，更加准确地通过学习生成预测模型和使用该生成的预测模型预测痴呆症的病情程度。

此外，此处仅说明了作为降维的一例而使用SVD的例子，但本发明并不限定于此。例如，也可以使用主成分分析(principal component analysis：PCA)等其他的降维方法。

另外，在图9中，说明了将第一实施方式中生成的文本与单词之间的评价值矩阵DW进行降维的例子，但是，在如图10中的(a)所示对第二实施方式中生成的文本与词类之间的评价值矩阵DH进行降维时也能够同样地进行。相对于此，在如图10中的(b)所示对第三实施方式中生成的第一评价值矩阵DW和第二评价值矩阵DH进行降维时，能够以下述方式进行。

例如，能够分开对第一评价值矩阵DW和第二评价值矩阵DH分别进行降维。即，将m×n维的第一评价值矩阵DW降维为m×k维的第一评价值矩阵DW_SVD，并将m×p维的第二评价值矩阵DH降维为m×k维的第二评价值矩阵DH_SVD。作为另一例，也可以如图8中的(a)所示将第一指标值矩阵DW与第二指标值矩阵DH沿横向排列生成m×(n+p)维的一个指标值矩阵，并将该生成的指标值矩阵降维为m×k维的评价值矩阵。

(第五实施方式)

接着，根据附图对本发明的第五实施方式进行说明。图11是表示第五实施方式涉及的痴呆症预测装置的功能构成例的框图。在该图11中，标注了与图1所示的符号相同符号的部件具有相同的功能，故此处省略重复的说明。此外，以下作为第一实施方式的变形例而对第五实施方式进行说明，但第五实施方式同样也可以应用为第二实施方式至第四实施方式的任一方式的变形例。

如图11所示，第四实施方式涉及的痴呆症预测装置取代学习用数据输入部10、预测模型生成部14A、痴呆症预测部21A以及预测模型存储部30A而具备学习用数据输入部10E、预测模型生成部14E、痴呆症预测部21E以及预测模型存储部30E。此外，通过学习用数据输入部10E、关联度指标值计算部100A以及预测模型生成部14E构成本发明的预测模型生成装置。

学习用数据输入部10E将分别表示痴呆症的多个评价项目各个中的痴呆症的病情程度已知的m名患者进行的自由对话的内容的m个文本作为学习用数据输入。痴呆症的多个评价项目各个中的病情程度是指MMSE的五个评价项目、即定向力、记忆力、注意力(计算力)、语言能力、构成力(图形能力)各项目的得分值。

预测模型生成部14E使用关联度指标值计算部100A计算出的m×n个关联度指标值生成预测模型，其中，该预测模型用于根据针对一个文本d_i由n个关联度指标值dw_ij(j＝1、2、……、n)构成的文本指标值组预测痴呆症的各评价项目的病情程度。此处预测的痴呆症的病情程度是指MMSE的五个评价项目各自的得分值。

即，预测模型生成部14E生成如下预测模型，即：针对根据MMSE的定向力、记忆力、注意力、语言能力、构成力的各得分已知(例如分别为x1分、x2分、x3分、x4分、x5分)的患者的自由对话算出的文本指标值组，在各评价项目分别预测为尽可能接近于x1分、x2分、x3分、x4分、x5分的得分。然后，预测模型生成部14E将生成的预测模型存储至预测模型存储部30E中。

预测模型生成部14E使用指标值计算部13A计算出的m×n个关联度指标值dw₁₁～dw_mn，针对各文本d_i(i＝1、2、……、m)的文本指标值组分别按评价项目计算出与痴呆症的各评价项目的病情程度关联的特征量，并根据该计算出的特征量生成用于从一个文本指标值组预测痴呆症的各评价项目的病情程度的预测模型。在此，预测模型生成部14E生成的预测模型是将文本d_i的文本指标值组作为输入，将MMSE的各评价项目的得分作为解而输出的学习模型。

在第五实施方式中，预测模型生成部14E生成预测模型时算出的特征量只要通过规定的算法进行计算即可。换言之，预测模型生成部14E中计算特征量的计算方法可以任意地设计。例如，预测模型生成部15E对于各文本d_i的文本指标值组分别按评价项目以使通过加权计算得到的值接近于表示痴呆症的各评价项目的病情程度的已知值(MMSE的各评价项目的得分)的方式进行规定的加权计算，并使用针对文本指标值组的加权值作为各评价项目的特征量，生成用于根据文本d_i的文本指标值组预测痴呆症的各评价项目的病情程度(MMSE的各评价项目的得分)的预测模型。

例如，预测模型生成部14E生成如下的预测模型，该预测模型将相对于文本d_i的文本指标值组的n个加权值{a_i1、a_i2、……、a_in}中的任意一个或多个加权值作为特征量而预测第一评价项目(定向力)的得分，将另外一个或多个加权值作为特征量而预测第二评价项目(记忆力)的得分，以下同样将进而另外一个或多个加权值作为特征量而预测第三评价项目～第五评价项目(注意力、语言能力、构成力)的得分。

痴呆症预测部21E将通过对预测用数据输入部20输入的预测用数据执行单词提取部11A、文本向量计算部121、单词向量计算部122以及指标值计算部13A的处理而得到的关联度指标值应用于预测模型生成部14E生成的预测模型(存储在预测模型存储部30E中的预测模型)，从而预测作为预测对象的m′名患者的痴呆症的各评价项目的病情程度。

根据以上那样构成的第五实施方式，无需进行简易精神状态检查(MMSE)便可预测MMSE的各评价项目的得分。

此外，此处对于按MMSE的五个评价项目预测得分的例子进行了说明，但是，也可以按照将该五个评价项目进一步细分后的更多评价项目预测得分。

在上述第一至第五实施方式中，例示了具备学习器和预测器的痴呆症预测装置，但也可以分开构成仅具备学习器的预测模型生成装置和仅具备预测器的痴呆症预测装置。仅具备学习器的预测模型生成装置的构成如上述第一至第五实施方式中所说明。另一方面，仅具备预测器的痴呆症预测装置的构成如图12所示。

在图12中，第二元素提取部11′具有与单词提取部11A、词类提取部11B、或者单词提取部11A及词类提取部11B的组合中的任意一个相同的功能。第二文本向量计算部121′具有与文本向量计算部121相同的功能。第二元素向量计算部120′具有与单词向量计算部122、词类向量计算部123、或者单词向量计算部122及词类向量计算部123的组合中的任意一个相同的功能。第二指标值计算部13′具有与指标值计算部13A～13E的任意一个相同的功能。痴呆症预测部21′具有与痴呆症预测部21A～21E的任意一个相同的功能。预测模型存储部30′存储与预测模型存储部30A～30E的任意一个相同的预测模型。

另外，在上述第一至第五实施方式中，对于“痴呆症的病情程度”为MMSE的得分时的例子，即预测MMSE的得分的例子进行了说明，但本发明并不限定于此。例如，痴呆症的病情程度也可以是以小于MMSE得分的最大值且2以上的数分类的类别。例如，也可以像MMSE的得分为30～27分时为非疑似痴呆症，26～22分时为疑似轻度痴呆症障碍，21分以下时为疑似痴呆症这样将痴呆症的病情程度分为三个类别，并预测患者属于哪个分类。

该情况下，例如在第一实施方式中，预测模型生成部14A生成如下的预测模型，即：将根据与已知MMSE得分为30～27分的患者的自由对话相对应的文本数据算出的文本指标值组分类为“无疑似痴呆症”的第一类别，将根据与已知MMSE得分为26～22分的患者的自由对话相对应的文本数据算出的文本指标值组分类为“疑似轻度痴呆症障碍”的第二类别，将根据与已知MMSE得分为21分以下的患者的自由对话相对应的文本数据算出的文本指标值组分类为“疑似痴呆症”的第三类别。

例如，预测模型生成部14A针对各文本d_i的文本指标值组分别算出特征量，并根据该算出的特征量的值，利用马尔科夫链蒙特卡罗法对类别分离进行优化，由此生成用于将各文本d_i分类为多个类别的预测模型。在此，预测模型生成部14A生成的预测模型是将文本指标值组作为输入、将想要预测的多个类别中的任意一个作为解而输出的学习模型。或者，也可以是将分类为任意类别的概率作为数值而输出的学习模型。学习模型的形态是任意的。

另外，在上述第一至第五实施方式中，对于以MMSE得分作为基准而预测痴呆症的病情程度的例子进行了说明，但本发明并不限定于此。即，也可以利用以MMSE得分以外的基准掌握痴呆症的病情程度的方法，例如，能够以修订版长谷川式简易智力评价量表(Hasegawa′s Dementia Scale-Revised：HDS-R)、ADAS-cog(Alzheimer′s DiseaseAssessment Scale-cognitive subscale)、CDR(Clinical Dementia Rating)、CDT(ClockDrawing Test)、COGNISTAT(Neurobehavioral Cognitive Status Examination)、7分钟筛选量表等为基准预测痴呆症的病情程度。

另外，在上述第一至第五实施方式中，对于将医生与患者的问诊形式的自由对话文字数据化，并将其用于与痴呆症的病情程度相关的学习及预测中的例子进行了说明，但本发明并不限定于此。例如，也可以将患者日常生活中进行的自由对话文字数据化，并将其用于与痴呆症的病情程度相关的学习及预测中。

此外，上述第一至第五实施方式都只不过示出了实施本发明时的具体化的一例，并不能据此对本发明的技术范围进行限定性的解释。即，本发明能够在不脱离其主旨或其主要特征的情况下以各种方式实施。

Claims

1.一种痴呆症预测装置，其特征在于，具备：

学习用数据输入部，其将分别表示痴呆症的病情程度已知的多名患者进行的自由对话的内容的多个文本作为学习用数据输入；

元素提取部，其对所述学习用数据输入部作为所述学习用数据输入的所述多个文本进行语素分析，从该多个文本提取多个分解元素；

文本向量计算部，其通过将所述多个文本分别按照规定的规则在q个(q为2以上的任意整数)维度上向量化，从而计算出由q个轴分量构成的多个文本向量；

元素向量计算部，其通过将所述多个分解元素分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的多个元素向量；

指标值计算部，其通过分别取得所述多个文本向量与所述多个元素向量的内积，从而计算出反映所述多个文本与所述多个分解元素之间的关联度的关联度指标值；

预测模型生成部，其使用所述指标值计算部计算出的所述关联度指标值，生成用于根据针对一个文本由多个关联度指标值构成的文本指标值组预测所述痴呆症的病情程度的预测模型；

预测用数据输入部，其将表示作为预测对象的患者进行的自由对话的内容的文本作为预测用数据输入；以及

痴呆症预测部，其通过将对所述预测用数据输入部输入的所述预测用数据执行所述元素提取部、所述文本向量计算部、所述元素向量计算部以及所述指标值计算部的处理而得到的关联度指标值应用于所述预测模型生成部生成的所述预测模型，从而针对所述作为预测对象的患者预测所述痴呆症的病情程度。

2.如权利要求1所述的痴呆症预测装置，其特征在于，

所述学习用数据输入部将分别表示痴呆症的病情程度已知的m名(m为2以上的任意整数)患者进行的自由对话的内容的m个文本作为所述学习用数据输入；

所述元素提取部是对所述学习用数据输入部作为所述学习用数据输入的所述m个文本进行分析，并从该m个文本中提取n个(n为2以上的任意整数)单词的单词提取部；

所述文本向量计算部通过将所述m个文本分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的m个文本向量；

所述元素向量计算部是通过将所述n个单词分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的n个单词向量的单词向量计算部；

所述指标值计算部通过分别取得所述m个文本向量与所述n个单词向量的内积，从而计算出反映所述m个文本与所述n个单词之间的关联度的m×n个关联度指标值；

所述预测模型生成部使用所述指标值计算部计算出的所述m×n个关联度指标值，生成用于根据针对一个文本由n个关联度指标值构成的文本指标值组预测所述痴呆症的病情程度的预测模型；

所述预测用数据输入部将分别表示作为预测对象的m′名(m′为1以上的任意整数)患者进行的自由对话的内容的m′个文本作为预测用数据输入；

所述痴呆症预测部通过将对所述预测用数据输入部输入的所述预测用数据执行所述单词提取部、所述文本向量计算部、所述单词向量计算部以及所述指标值计算部的处理而得到的关联度指标值应用于所述预测模型生成部生成的所述预测模型，从而针对所述作为预测对象的m′名患者预测所述痴呆症的病情程度。

3.如权利要求1所述的痴呆症预测装置，其特征在于，

所述元素提取部是对所述学习用数据输入部作为所述学习用数据输入的所述m个文本进行分析，并从该m个文本中提取p个(p为2以上的任意整数)词类的词类提取部；

所述元素向量计算部是通过将所述p个词类分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的p个词类向量的词类向量计算部；

所述指标值计算部通过分别取得所述m个文本向量与所述p个词类向量的内积，从而计算出反映所述m个文本与所述p个词类之间的关联度的m×p个关联度指标值；

所述预测模型生成部使用所述指标值计算部计算出的所述m×p个关联度指标值，生成用于根据针对一个文本由p个关联度指标值构成的文本指标值组预测所述痴呆症的病情程度的预测模型；

所述痴呆症预测部通过将对所述预测用数据输入部输入的所述预测用数据执行所述词类提取部、所述文本向量计算部、所述词类向量计算部以及所述指标值计算部的处理而得到的关联度指标值应用于所述预测模型生成部生成的所述预测模型，从而针对所述作为预测对象的m′名患者预测所述痴呆症的病情程度。

4.如权利要求1所述的痴呆症预测装置，其特征在于，

所述元素提取部包括单词提取部和词类提取部，所述单词提取部对所述学习用数据输入部作为所述学习用数据输入的所述m个文本进行分析，从该m个文本中提取n个(n为2以上的任意整数)单词，所述词类提取部对所述学习用数据输入部作为所述学习用数据输入的所述m个文本进行分析，从该m个文本中提取p个(p为2以上的任意整数)词类；

所述元素向量计算部包括单词向量计算部和词类向量计算部，所述单词向量计算部通过将所述n个单词分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的n个单词向量，所述词类向量计算部通过将所述p个词类分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的p个词类向量；

所述指标值计算部通过分别取得所述m个文本向量与所述n个单词向量的内积，从而计算出反映所述m个文本与所述n个单词之间的关联度的m×n个关联度指标值，并且，通过分别取得所述m个文本向量与所述p个词类向量的内积，从而计算出反映所述m个文本与所述p个词类之间的关联度的m×p个关联度指标值；

所述预测模型生成部使用所述指标值计算部计算出的所述m×n个关联度指标值和所述m×p个关联度指标值，生成用于根据针对一个文本由n个关联度指标值构成的文本指标值组和由p个关联度指标值构成的文本指标值组预测所述痴呆症的病情程度的预测模型；

所述痴呆症预测部通过将对所述预测用数据输入部输入的所述预测用数据执行所述单词提取部、所述词类提取部、所述文本向量计算部、所述单词向量计算部、所述词类向量计算部以及所述指标值计算部的处理而得到的所述关联度指标值应用于所述预测模型生成部生成的所述预测模型，从而针对所述作为预测对象的m′名患者预测所述痴呆症的病情程度。

5.如权利要求1至4中任一项所述的痴呆症预测装置，其特征在于，

还具备降维部，所述降维部通过对所述指标值计算部计算出的所述关联度指标值进行规定的降维处理，从而计算出被降维的关联度指标值；

所述预测模型生成部使用通过所述降维部降维后的关联度指标值，生成用于根据针对一个文本由多个关联度指标值构成的文本指标值组预测所述痴呆症的病情程度的预测模型；

所述痴呆症预测部通过将对所述指标值计算部算出的关联度指标值进一步执行所述降维部的处理而得到的关联度指标值应用于所述预测模型生成部生成的所述预测模型，从而针对所述作为预测对象的患者预测所述痴呆症的病情程度。

6.如权利要求1至5中任一项所述的痴呆症预测装置，其特征在于，

所述预测模型生成部针对所述文本指标值组计算出与所述痴呆症的病情程度关联的特征量，并根据该计算出的特征量生成用于根据所述文本指标值组预测所述痴呆症的病情程度的所述预测模型。

7.如权利要求6所述的痴呆症预测装置，其特征在于，

所述预测模型生成部对所述文本指标值组以使通过加权计算得到的值接近于表示所述痴呆症的病情程度的已知值的方式进行规定的加权计算，并使用针对所述文本指标值组的加权值作为所述特征量，生成用于根据所述文本指标值组预测所述痴呆症的病情程度的所述预测模型。

8.如权利要求1至5中任一项所述的痴呆症预测装置，其特征在于，

所述学习用数据输入部将分别表示所述痴呆症的多个评价项目各个中的病情程度已知的多名患者进行的自由对话的内容的多个文本作为学习用数据输入；

所述预测模型生成部生成用于根据所述文本指标值组预测所述痴呆症的各个所述评价项目的病情程度的预测模型；

所述痴呆症预测部针对所述作为预测对象的患者预测所述痴呆症的各个所述评价项目的病情程度。

9.如权利要求8所述的痴呆症预测装置，其特征在于，

所述预测模型生成部针对所述文本指标值组按所述评价项目计算出与所述痴呆症的各个所述评价项目的病情程度关联的特征量，并根据该计算出的特征量生成用于根据所述文本指标值组预测所述痴呆症的各个所述评价项目的病情程度的所述预测模型。

10.如权利要求9所述的痴呆症预测装置，其特征在于，

所述预测模型生成部针对所述文本指标值组按所述评价项目以使通过加权计算得到的值接近于表示所述痴呆症的各个所述评价项目的病情程度的已知值的方式进行规定的加权计算，并使用针对所述文本指标值组的加权值作为各个所述评价项目的所述特征量，生成用于根据所述文本指标值组预测所述痴呆症的各个所述评价项目的病情程度的所述预测模型。

11.如权利要求1至10中任一项所述的痴呆症预测装置，其特征在于，

所述痴呆症的病情程度是简易精神状态检查的得分的值。

12.如权利要求1至10中任一项所述的痴呆症预测装置，其特征在于，

所述痴呆症的病情程度是以小于简易精神状态检查的得分的最大值且为2以上的数分类的类别。

13.一种预测模型生成装置，其特征在于，具备：

指标值计算部，其通过分别取得所述多个文本向量与所述多个元素向量的内积，从而计算出反映所述多个文本与所述多个分解元素之间的关联度的关联度指标值；以及

预测模型生成部，其使用所述指标值计算部计算出的所述关联度指标值，生成用于根据针对一个文本由多个关联度指标值构成的文本指标值组预测所述痴呆症的病情程度的预测模型。

14.如权利要求13所述的预测模型生成装置，其特征在于，

所述预测模型生成部生成用于根据所述文本指标值组预测所述痴呆症的各个所述评价项目的病情程度的预测模型。

15.一种痴呆症预测装置，其特征在于，具备：

预测用数据输入部，其将表示作为预测对象的患者进行的自由对话的内容的一个以上的文本作为预测用数据输入；

第二元素提取部，其对所述预测用数据输入部作为所述预测用数据输入的所述一个以上的文本进行语素分析，从该一个以上的文本提取多个分解元素；

第二文本向量计算部，其通过将所述一个以上的文本按照规定的规则在q个(q为2以上的任意整数)维度上向量化，从而计算出由q个轴分量构成的一个以上的文本向量；

第二元素向量计算部，其通过将所述多个分解元素分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的多个元素向量；

第二指标值计算部，其通过分别取得所述一个以上的文本向量与所述多个元素向量的内积，从而计算出反映所述一个以上的文本与所述多个分解元素之间的关联度的关联度指标值；以及

痴呆症预测部，其通过将所述第二指标值计算部计算出的关联度指标值应用于通过权利要求13的预测模型生成装置生成的预测模型中，从而针对所述作为预测对象的患者预测所述痴呆症的病情程度。

16.一种痴呆症预测用程序，其特征在于，用于使计算机作为下述单元发挥功能；

学习用数据输入单元，其将分别表示痴呆症的病情程度已知的多名患者进行的自由对话的内容的多个文本作为学习用数据输入；

元素提取单元，其对所述学习用数据输入单元作为所述学习用数据输入的所述多个文本进行语素分析，从该多个文本提取多个分解元素；

文本向量计算单元，其通过将所述多个文本分别按照规定的规则在q个(q为2以上的任意整数)维度上向量化，从而计算出由q个轴分量构成的多个文本向量；

元素向量计算单元，其通过将所述多个分解元素分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的多个元素向量；

指标值计算单元，其通过分别取得所述多个文本向量与所述多个元素向量的内积，从而计算出反映所述多个文本与所述多个分解元素之间的关联度的关联度指标值；以及

预测模型生成单元，其使用所述指标值计算单元计算出的所述关联度指标值，生成用于根据针对一个文本由多个关联度指标值构成的文本指标值组预测所述痴呆症的病情程度的预测模型。

17.如权利要求16所述的痴呆症预测用程序，其特征在于，用于使计算机还作为下述单元发挥功能；

预测用数据输入单元，其将表示作为预测对象的患者进行的自由对话的内容的文本作为预测用数据输入；以及

痴呆症预测单元，其通过将对所述预测用数据输入单元输入的所述预测用数据执行所述元素提取单元、所述文本向量计算单元、所述元素向量计算单元以及所述指标值计算单元的处理而得到的关联度指标值应用于所述预测模型生成单元生成的所述预测模型，从而针对所述作为预测对象的患者预测所述痴呆症的病情程度。

18.一种痴呆症预测用程序，其特征在于，用于使计算机作为下述单元发挥功能；

预测用数据输入单元，其将表示作为预测对象的患者进行的自由对话的内容的一个以上的文本作为预测用数据输入；

第二元素提取单元，其对所述预测用数据输入单元作为所述预测用数据输入的所述一个以上的文本进行语素分析，从该一个以上的文本提取多个分解元素；

第二文本向量计算单元，其通过将所述一个以上的文本按照规定的规则在q个(q为2以上的任意整数)维度上向量化，从而计算出由q个轴分量构成的一个以上的文本向量；

第二元素向量计算单元，其通过将所述多个分解元素分别按照规定的规则在q个维度上向量化，从而计算出由q个轴分量构成的多个元素向量；

第二指标值计算单元，其通过分别取得所述一个以上的文本向量与所述多个元素向量的内积，从而计算出反映所述一个以上的文本与所述多个分解元素之间的关联度的关联度指标值；以及

痴呆症预测单元，其通过将所述第二指标值计算单元算出的关联度指标值应用于通过权利要求16所述的预测模型生成单元生成的预测模型中，从而针对所述作为预测对象的患者预测所述痴呆症的病情程度。