JP7197922B2 - Machine learning device, analysis device, machine learning method and analysis method - Google Patents

Machine learning device, analysis device, machine learning method and analysis method Download PDF

Info

Publication number
JP7197922B2
JP7197922B2 JP2020518303A JP2020518303A JP7197922B2 JP 7197922 B2 JP7197922 B2 JP 7197922B2 JP 2020518303 A JP2020518303 A JP 2020518303A JP 2020518303 A JP2020518303 A JP 2020518303A JP 7197922 B2 JP7197922 B2 JP 7197922B2
Authority
JP
Japan
Prior art keywords
acoustic data
sound
unit
segment
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020518303A
Other languages
Japanese (ja)
Other versions
JPWO2019216320A1 (en
JPWO2019216320A5 (en
Inventor
崇宏 榎本
裕樹 合嶋
竜之介 佐藤
正武 芥川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokushima
Original Assignee
University of Tokushima
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokushima filed Critical University of Tokushima
Publication of JPWO2019216320A1 publication Critical patent/JPWO2019216320A1/en
Publication of JPWO2019216320A5 publication Critical patent/JPWO2019216320A5/ja
Application granted granted Critical
Publication of JP7197922B2 publication Critical patent/JP7197922B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B10/00Other methods or instruments for diagnosis, e.g. instruments for taking a cell sample, for biopsy, for vaccination diagnosis; Sex determination; Ovulation-period determination; Throat striking implements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B7/00Instruments for auscultation
    • A61B7/02Stethoscopes
    • A61B7/04Electric stethoscopes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、信号対雑音比が劣化する環境下において、音響データから生体音を自動抽出または分類する技術に関する。 The present invention relates to a technique for automatically extracting or classifying body sounds from acoustic data in an environment where the signal-to-noise ratio is degraded.

胃腸の運動機能の低下及び消失はQOLや日々の食生活に大きく関わる問題である。ストレスなどが原因で胃腸の運動機能に障害が起こることで、胃もたれや痛みを感じる機能性消化管障害(FGIDs:Functional gastrointestinal disorders)はその一例と言える。 Decreased or lost gastrointestinal motility is a problem that greatly affects QOL and daily eating habits. An example of this is functional gastrointestinal disorders (FGIDs), in which gastrointestinal motility is disturbed due to stress and the like.

このような腸疾患の診断は、胃腸の運動性を評価することで行われる。現在、胃腸の運動性を測る手段としてX線検査や内視鏡検査が行われているが、患者への心身面や金銭面の負担が大きく、大掛かりな検査機器が必要であり、繰り返しの観察には適していない。 Diagnosis of such intestinal disorders is performed by assessing gastrointestinal motility. Currently, X-ray examination and endoscopy are used as a means of measuring gastrointestinal motility, but they impose a heavy physical and financial burden on the patient and require large-scale examination equipment, requiring repeated observations. not suitable for

近年、腸の運動機能を評価するために、腸蠕動音(BS:Bowel sound)から得られた音響特徴量が用いられている。腸蠕動音は、消化管の蠕動運動によってガスや内容物が消化管内を移動することで発生する音である(非特許文献1)。腸蠕動音は、電子聴診器を体表面に取り付けることにより、簡単に録音することができる。例えば非特許文献2には、電子聴診器により獲得された録音データからBSを自動抽出して、腸運動機能を評価する方法が開示されている。 In recent years, acoustic features obtained from intestinal peristaltic sounds (BS: Bowel sound) have been used to evaluate intestinal motility. Intestinal peristaltic sounds are sounds generated when gas and contents move in the digestive tract due to peristalsis of the digestive tract (Non-Patent Document 1). Intestinal peristaltic sounds can be easily recorded by attaching an electronic stethoscope to the body surface. For example, Non-Patent Document 2 discloses a method of automatically extracting BS from recorded data acquired by an electronic stethoscope and evaluating intestinal motor function.

静音下では、BSの信号対雑音比が劣化するが、電子聴診器を使用しなくとも、離れたところでBSを認識することができる。このことから、最近の本発明者らによる研究では、電子聴診器を用いた場合と同様に、非接触マイクロフォンを用いて獲得した場合も、BSをもとに腸の運動性を評価できることが示されている(非特許文献3)。 In quiet conditions, the BS signal-to-noise ratio is degraded, but the BS can be recognized at a distance without the use of an electronic stethoscope. Therefore, recent studies by the present inventors have shown that BS can be used to assess intestinal motility when acquired using a non-contact microphone as well as when using an electronic stethoscope. (Non-Patent Document 3).

G. P. Zaloga, "Blind bedside placement of enteric feeding tubes", Techniques in Gastrointestinal Endoscopy, 2001, 3(1), p. 9-15G. P. Zaloga, "Blind bedside placement of enteric feeding tubes", Techniques in Gastrointestinal Endoscopy, 2001, 3(1), p.9-15 Takahiro Emoto, et al. "ARMA-based spectral bandwidth for evaluation of bowel motility by the analysis of bowel sounds.", Physiological measurement 34.8 (2013): 925.Takahiro Emoto, et al. "ARMA-based spectral bandwidth for evaluation of bowel motility by the analysis of bowel sounds.", Physiological measurement 34.8 (2013): 925. Takahiro Emoto et. al, "Evaluation of human bowel motility using non-contact microphones", Biomedical Physics & Engineering Express, 2016, 2(4), 045012.Takahiro Emoto et. al, "Evaluation of human bowel motility using non-contact microphones", Biomedical Physics & Engineering Express, 2016, 2(4), 045012.

しかしながら、非特許文献3の研究では、非接触マイクロフォンで獲得した録音データからBSを手動で抽出するために、多くの時間を費やして慎重なラベリング作業を行う必要があった。マイクロフォンに基づくセンサ(例えば、電子聴診器やマイクロフォン)は、環境雑音の影響を受けやすい。非接触マイクロフォンで録音されたBSは体表面から直接電子聴診器で得られるBSよりも音圧が低下する。さらに、電子聴診器の録音に比べ、BS以外の音がより大きく、混入されるおそれがある。よって、多くの手間や時間を要するBSのラベリング作業を省くためには、雑音に頑健なBS抽出システムを構築する必要がある。 However, the study of Non-Patent Document 3 required a lot of time-consuming and careful labeling work to manually extract the BS from the recording data acquired by the non-contact microphone. Microphone-based sensors (eg, electronic stethoscopes and microphones) are susceptible to environmental noise. BS recorded with a non-contact microphone has a lower sound pressure than BS obtained with an electronic stethoscope directly from the body surface. In addition, non-BS sounds are louder and more likely to be mixed in than electronic stethoscope recordings. Therefore, in order to omit the BS labeling work that requires a lot of time and effort, it is necessary to construct a noise-robust BS extraction system.

本発明は、上記問題を解決するためになされたものであって、雑音の多い音響データから生体音を精度よく抽出または分類することを課題とする。 SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and an object of the present invention is to accurately extract or classify body sounds from noisy acoustic data.

本発明者らは、雑音に頑健な特徴量によって機械学習された予測アルゴリズムを用いることにより前記課題が解決できることを見出し、本発明を完成するに至った。 The present inventors have found that the above problems can be solved by using a prediction algorithm machine-learned using features that are robust to noise, and have completed the present invention.

本発明は、次の態様を含む。
項1.
音響データに生体音が含まれているかを予測する予測アルゴリズムを学習する機械学習装置であって、
集音装置によって被験者から得られた音響データを取得する音響データ取得部と、
前記音響データに前記生体音が含まれるか否かをユーザの操作に応じて判定する生体音判定部と、
前記音響データにおける特徴量を抽出する特徴量抽出部と、
前記生体音判定部の判定結果および前記特徴量に基づいて、前記予測アルゴリズムを学習する学習部と、
を備え、
前記特徴量は、PNCC、MFCC、△PNCC、△△PNCC、△MFCC、△△MFCC、BSF、フォルマントに関連する特徴、ピッチに関連する特徴、LPC係数、スペクトルフラットネス、対数エネルギ、有音区間の持続時間、ZCR、およびエントロピーに基づく指標、ならびに、それらの統計量の少なくともいずれかを含む、機械学習装置。
項2.
前記生体音は腸蠕動音である、項1に記載の機械学習装置。
項3.
前記特徴量はPNCCを含む、項1または2に記載の機械学習装置。
項4.
前記特徴量はBSFおよびその統計量の少なくともいずれかを含む、項1~3のいずれかに記載の機械学習装置。
項5.
前記特徴量は、BSF1の平均および標準偏差、BSF2の平均および標準偏差、BSF3の平均および標準偏差、BSF4の平均および標準偏差、並びに、BSF5を含む、項4に記載の機械学習装置。
項6.
前記学習部は、人工ニューラルネットワーク(ANN)で構成される、項1~5のいずれかに記載の機械学習装置。
項7.
前記集音装置は非接触マイクロフォンである、項1~6のいずれかに記載の機械学習装置。
項8.
前記音響データ取得部によって取得された前記音響データから、複数のセグメントを検出するセグメント検出部をさらに備え、
前記生体音判定部は、各セグメントに前記生体音が含まれるか否かをユーザの操作に応じて判定し、
前記特徴量抽出部は、各セグメントにおける特徴量を抽出し、
前記学習部は、各セグメントにおける前記特徴量および前記生体音判定部による判定結果に基づいて、前記予測アルゴリズムを学習する、項1~7のいずれかに記載の機械学習装置。
項9.
前記セグメント検出部は、SNRが所定値以上のセグメントを検出する、項8に記載の機械学習装置。
項10.
前記音響データに前記生体音が含まれる場合、前記生体音の種類をユーザの操作に応じて判定する分類判定部をさらに備え、
前記学習部は、さらに前記生体音の種類に基づいて、前記予測アルゴリズムを学習する、項1~9のいずれかに記載の機械学習装置。
項11.
集音装置によって対象者から得られた音響データを解析する解析装置であって、
項1~10のいずれかに記載の機械学習装置によって学習された予測アルゴリズムに従って、前記音響データに生体音が含まれているかを予測する生体音予測部を備えた、解析装置。
項12.
前記生体音予測部の予測結果に基づいて、前記音響データから前記生体音が含まれているセグメントを抽出する生体音セグメント抽出部と、
前記生体音セグメント抽出部によって抽出された前記セグメントに基づいて、前記対象者の状態を評価する第1状態評価部と、
をさらに備えた、項11に記載の解析装置。
項13.
前記生体音は腸蠕動音であり、
前記第1状態評価部は、前記状態として腸運動性を評価する、項12に記載の解析装置。
項14.
前記予測アルゴリズムは、項8に記載の機械学習装置によって学習された予測アルゴリズムであり、
前記音響データに生体音が含まれていると予測された場合に、前記予測アルゴリズムに従って、前記生体音の種類を予測する分類予測部をさらに備えた、項11~13のいずれかに記載の解析装置。
項15.
前記分類予測部によって予測された前記生体音の種類に基づいて、前記対象者の状態を評価する第2状態評価部をさらに備えた、項14に記載の解析装置。
項16.
前記生体音は腸蠕動音であり、
前記第2状態評価部は、前記状態として腸疾患の有無を評価する、項15に記載の解析装置。
項17.
音響データに生体音が含まれているかを予測する予測アルゴリズムを学習する機械学習方法であって、
集音装置によって被験者から得られた音響データを取得する音響データ取得ステップと、
前記音響データに前記生体音が含まれるか否かをユーザの操作に応じて判定する生体音判定ステップと、
前記音響データにおける特徴量を抽出する特徴量抽出ステップと、
前記生体音判定ステップの判定結果および前記特徴量に基づいて、前記予測アルゴリズムを学習する学習ステップと、
を備え、
前記特徴量は、PNCC、MFCC、△PNCC、△△PNCC、△MFCC、△△MFCC、BSF、フォルマントに関連する特徴、ピッチに関連する特徴、LPC係数、スペクトルフラットネス、対数エネルギ、有音区間の持続時間、ZCR、およびエントロピーに基づく指標、ならびに、それらの統計量の少なくともいずれかを含む、機械学習方法。
項18.
集音装置によって対象者から得られた音響データを解析する解析方法であって、
項17に記載の機械学習方法によって学習された予測アルゴリズムに従って、前記音響データに生体音が含まれているかを予測する予測ステップを備えた、解析方法。
項19.
前記予測ステップの予測結果に基づいて、前記音響データから前記生体音が含まれているセグメントを抽出する生体音セグメント抽出ステップと、
前記生体音セグメント抽出ステップによって抽出された前記セグメントに基づいて、前記対象者の状態を評価する状態評価ステップと、
をさらに備えた、項18に記載の解析方法。
The present invention includes the following aspects.
Section 1.
A machine learning device that learns a prediction algorithm for predicting whether acoustic data contains body sounds,
an acoustic data acquisition unit that acquires acoustic data obtained from a subject by a sound collector;
a body sound determination unit that determines whether or not the body sound is included in the acoustic data according to a user's operation;
a feature quantity extraction unit for extracting a feature quantity in the acoustic data;
a learning unit that learns the prediction algorithm based on the determination result of the body sound determination unit and the feature quantity;
with
The features include PNCC, MFCC, ΔPNCC, ΔΔPNCC, ΔMFCC, ΔΔMFCC, BSF, formant-related features, pitch-related features, LPC coefficients, spectral flatness, logarithmic energy, and voiced sections. , ZCR, and entropy-based metrics, and/or statistics thereof.
Section 2.
Item 2. The machine learning device according to Item 1, wherein the body sound is intestinal peristaltic sound.
Item 3.
Item 3. The machine learning device according to Item 1 or 2, wherein the feature amount includes PNCC.
Section 4.
4. The machine learning device according to any one of Items 1 to 3, wherein the feature amount includes at least one of BSF and its statistic.
Item 5.
Item 5. The machine learning device according to item 4, wherein the feature amount includes the mean and standard deviation of BSF1, the mean and standard deviation of BSF2, the mean and standard deviation of BSF3, the mean and standard deviation of BSF4, and BSF5.
Item 6.
Item 6. The machine learning device according to any one of Items 1 to 5, wherein the learning unit is composed of an artificial neural network (ANN).
Item 7.
Item 7. The machine learning device according to any one of Items 1 to 6, wherein the sound collecting device is a non-contact microphone.
Item 8.
further comprising a segment detection unit that detects a plurality of segments from the acoustic data acquired by the acoustic data acquisition unit;
The body sound determination unit determines whether or not each segment includes the body sound according to a user's operation,
The feature quantity extraction unit extracts a feature quantity in each segment,
Item 8. The machine learning device according to any one of items 1 to 7, wherein the learning unit learns the prediction algorithm based on the feature amount in each segment and the determination result by the body sound determination unit.
Item 9.
Item 9. The machine learning device according to Item 8, wherein the segment detection unit detects a segment having an SNR equal to or greater than a predetermined value.
Item 10.
further comprising a classification determination unit that determines a type of the body sound according to a user's operation when the body sound is included in the acoustic data,
Item 10. The machine learning device according to any one of items 1 to 9, wherein the learning unit learns the prediction algorithm further based on the type of the body sound.
Item 11.
An analysis device for analyzing acoustic data obtained from a subject by a sound collector,
Item 11. An analysis apparatus comprising a body sound prediction unit that predicts whether the acoustic data includes a body sound according to a prediction algorithm learned by the machine learning apparatus according to any one of items 1 to 10.
Item 12.
a body sound segment extraction unit that extracts a segment containing the body sound from the acoustic data based on the prediction result of the body sound prediction unit;
a first condition evaluation unit that evaluates the condition of the subject based on the segment extracted by the body sound segment extraction unit;
Item 12. The analysis device according to Item 11, further comprising:
Item 13.
the body sound is an intestinal peristaltic sound,
Item 13. The analysis device according to Item 12, wherein the first condition evaluation unit evaluates intestinal motility as the condition.
Item 14.
The prediction algorithm is a prediction algorithm learned by the machine learning device according to Item 8,
Item 14. The analysis according to any one of items 11 to 13, further comprising a classification prediction unit that predicts the type of the body sound according to the prediction algorithm when it is predicted that the body sound is included in the acoustic data. Device.
Item 15.
Item 15. The analysis device according to Item 14, further comprising a second condition evaluation unit that evaluates the condition of the subject based on the type of body sound predicted by the classification prediction unit.
Item 16.
the body sound is an intestinal peristaltic sound,
Item 16. The analysis device according to Item 15, wherein the second condition evaluation unit evaluates the presence or absence of intestinal disease as the condition.
Item 17.
A machine learning method for learning a prediction algorithm for predicting whether acoustic data contains body sounds, comprising:
an acoustic data acquisition step of acquiring acoustic data obtained from a subject by a sound collector;
a body sound determination step of determining whether or not the body sound is included in the acoustic data according to a user's operation;
a feature quantity extraction step of extracting a feature quantity in the acoustic data;
a learning step of learning the prediction algorithm based on the determination result of the body sound determination step and the feature quantity;
with
The features include PNCC, MFCC, ΔPNCC, ΔΔPNCC, ΔMFCC, ΔΔMFCC, BSF, formant-related features, pitch-related features, LPC coefficients, spectral flatness, logarithmic energy, and voiced sections. , ZCR, and entropy-based metrics, and/or statistics thereof.
Item 18.
An analysis method for analyzing acoustic data obtained from a subject by a sound collector,
Item 18. An analysis method, comprising a prediction step of predicting whether the acoustic data includes a body sound according to a prediction algorithm learned by the machine learning method according to Item 17.
Item 19.
a body sound segment extraction step of extracting a segment containing the body sound from the acoustic data based on the prediction result of the prediction step;
a state evaluation step of evaluating the state of the subject based on the segment extracted by the body sound segment extraction step;
19. The analysis method according to Item 18, further comprising:

本発明によれば、雑音の多い音響データから生体音を精度よく抽出または分類することができる。 According to the present invention, it is possible to accurately extract or classify body sounds from noisy acoustic data.

本発明の一実施形態に係る診断支援システムの概略構成を示すブロック図である。1 is a block diagram showing a schematic configuration of a diagnostic support system according to one embodiment of the present invention; FIG. 本発明の一実施形態に係る機械学習装置の機能を示すブロック図である。1 is a block diagram showing functions of a machine learning device according to an embodiment of the present invention; FIG. 本発明の一実施形態に係る機械学習方法の全体的な手順を示すフローチャートである。4 is a flow chart showing the overall procedure of a machine learning method according to one embodiment of the present invention; 本発明の一実施形態に係る解析装置の機能を示すブロック図である。It is a block diagram showing the function of the analysis device according to one embodiment of the present invention. 本発明の一実施形態に係る解析方法の全体的な手順を示すフローチャートである。4 is a flow chart showing the overall procedure of an analysis method according to one embodiment of the present invention; 本発明の変形例に係る機械学習装置の機能を示すブロック図である。It is a block diagram which shows the function of the machine-learning apparatus based on the modification of this invention. 本発明の変形例に係る解析装置の機能を示すブロック図である。It is a block diagram which shows the function of the analysis apparatus based on the modification of this invention. 特徴量がMFCCおよびPNCCである場合の予測精度(Acc)をSNRの基準値毎に示したグラフであり、(a)は炭酸水摂取前のグラフ、(b)は炭酸水摂取後のグラフである。2 is a graph showing the prediction accuracy (Acc) for each SNR reference value when the feature amount is MFCC and PNCC, (a) being a graph before ingestion of carbonated water, and (b) being a graph after ingestion of carbonated water. be. (a)および(b)は、事前検証において算出された4つの指標の時間推移を示している。(a) and (b) show time transitions of the four indices calculated in the preliminary verification. 乳酸菌飲料負荷試験時における1分間あたりのBS発生数の推移を示している。It shows the change in the number of BS occurrences per minute during the lactic acid bacteria drink load test.

以下、本発明の実施形態について添付図面を参照して説明する。なお、本発明は、下記の実施形態に限定されるものではない。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. In addition, this invention is not limited to the following embodiment.

(全体構成)
図1は、本実施形態に係る診断支援システム100の概略構成を示すブロック図である。診断支援システム100は、機械学習装置1および解析装置2を備えている。機械学習装置1は、音響データに生体音が含まれているかを予測する予測アルゴリズムを学習する。解析装置2は、機械学習装置1によって学習された予測アルゴリズムに従って、対象者から得られた音響データに生体音が含まれているかを予測し、さらに、対象者の状態を評価する機能を有している。機械学習装置1と解析装置2とは、別個の装置で実現してもよいし、機械学習装置1と解析装置2とを一つの装置で構成してもよい。
(overall structure)
FIG. 1 is a block diagram showing a schematic configuration of a diagnosis support system 100 according to this embodiment. A diagnosis support system 100 includes a machine learning device 1 and an analysis device 2 . The machine learning device 1 learns a prediction algorithm for predicting whether or not body sounds are included in acoustic data. The analysis device 2 has a function of predicting whether or not body sounds are included in the acoustic data obtained from the subject according to the prediction algorithm learned by the machine learning device 1, and of evaluating the state of the subject. ing. The machine learning device 1 and the analysis device 2 may be realized by separate devices, or the machine learning device 1 and the analysis device 2 may be configured by one device.

以下、機械学習装置1および解析装置2の構成例について説明する。 Configuration examples of the machine learning device 1 and the analysis device 2 will be described below.

(機械学習装置)
図2は、本実施形態に係る機械学習装置1の機能を示すブロック図である。機械学習装置1は、例えば汎用のパーソナルコンピュータで構成することができ、ハードウェア構成として、CPU(図示せず)、主記憶装置(図示せず)、補助記憶装置11などを備えている。機械学習装置1では、CPUが補助記憶装置11に記憶された各種プログラムを主記憶装置に読み出して実行することにより、各種演算処理を実行する。補助記憶装置11は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)で構成することができる。補助記憶装置11は、機械学習装置1に内蔵されてもよいし、機械学習装置1とは別体の外部記憶装置として設けてもよい。
(machine learning device)
FIG. 2 is a block diagram showing functions of the machine learning device 1 according to this embodiment. The machine learning device 1 can be configured by, for example, a general-purpose personal computer, and includes a CPU (not shown), a main memory device (not shown), an auxiliary memory device 11, and the like as a hardware configuration. In the machine learning device 1, the CPU reads various programs stored in the auxiliary storage device 11 to the main storage device and executes them, thereby executing various arithmetic processing. The auxiliary storage device 11 can be composed of, for example, a hard disk drive (HDD) or solid state drive (SSD). The auxiliary storage device 11 may be built in the machine learning device 1 or may be provided as an external storage device separate from the machine learning device 1 .

機械学習装置1には、入力装置3および集音装置4が接続されている。入力装置3は、例えばキーボード、タッチパネル、マウス等で構成され、ユーザからの入力操作を受け付ける。 An input device 3 and a sound collector 4 are connected to the machine learning device 1 . The input device 3 is composed of, for example, a keyboard, a touch panel, a mouse, etc., and receives input operations from the user.

集音装置4は、本実施形態では、非接触マイクロフォンで構成される。集音装置4を被験者5に近付けることにより、集音装置4は被験者5から発せられる生体音を録音し、音響データを機械学習装置1に送信する。 The sound collector 4 is configured by a non-contact microphone in this embodiment. By bringing the sound collector 4 close to the subject 5 , the sound collector 4 records body sounds emitted from the subject 5 and transmits acoustic data to the machine learning device 1 .

なお、音響データは、有線または無線で機械学習装置1に送信してもよいし、SDカード等の記録媒体を介して機械学習装置1に入力してもよい。また、集音装置4は、非接触マイクロフォンに限らず、電子聴診器であってもよい。あるいは、非接触マイクロフォンと電子聴診器とを組み合わせて集音装置4を構成してもよい。従来より、腹部に複数の聴診器を使用する技術が開発されてきたが、聴診器に非接触マイクロフォンを搭載することにより、シングルチャネル聴診器を用いるだけで、雑音下であってもBSを基に腸の運動性を評価することができると期待される。 The acoustic data may be transmitted to the machine learning device 1 by wire or wirelessly, or may be input to the machine learning device 1 via a recording medium such as an SD card. Moreover, the sound collector 4 is not limited to a non-contact microphone, and may be an electronic stethoscope. Alternatively, the sound collector 4 may be configured by combining a non-contact microphone and an electronic stethoscope. Conventionally, techniques have been developed to use multiple stethoscopes on the abdomen. It is expected that intestinal motility can be evaluated in the future.

機械学習装置1は、音響データに生体音が含まれているかを予測する予測アルゴリズムを学習する機能を有している。この機能を実現するために、機械学習装置1は、機能ブロックとして、教師データ作成部12および学習部13を備えている。生体音は、人間の生体活動に起因する音であれば特に限定されないが、本実施形態では、腸蠕動音を対象としている。 The machine learning device 1 has a function of learning a prediction algorithm for predicting whether or not body sounds are included in acoustic data. In order to realize this function, the machine learning device 1 includes a teacher data creation unit 12 and a learning unit 13 as functional blocks. Body sounds are not particularly limited as long as they are sounds caused by human body activities, but in the present embodiment, intestinal peristaltic sounds are targeted.

教師データ作成部12は、集音装置4からの音響データに基づいて、教師データD1を作成する機能ブロックであり、音響データ取得部121、セグメント検出部122、生体音判定部123および特徴量抽出部124およびを備えている。 The teacher data creation unit 12 is a functional block that creates teacher data D1 based on the acoustic data from the sound collector 4, and includes an acoustic data acquisition unit 121, a segment detection unit 122, a body sound determination unit 123, and a feature amount extraction unit. 124 and .

音響データ取得部121は、集音装置4によって被験者5から得られた音響データを取得する。被験者5の体勢は特に限定されないが、本実施形態では仰臥位である。 The acoustic data acquisition unit 121 acquires acoustic data obtained from the subject 5 by the sound collector 4 . Although the posture of the subject 5 is not particularly limited, it is in the supine position in this embodiment.

セグメント検出部122は、音響データ取得部121によって取得された音響データから、複数のセグメントを検出する。セグメントの検出基準は特に限定されないが、本実施形態では、セグメント検出部122は、STE(Short term energy)法を用いて、SNR(Signal to Noise Ratio)が所定値以上のセグメントを検出する。 The segment detection unit 122 detects multiple segments from the acoustic data acquired by the acoustic data acquisition unit 121 . A segment detection criterion is not particularly limited, but in the present embodiment, the segment detection unit 122 uses the STE (Short term energy) method to detect a segment whose SNR (Signal to Noise Ratio) is equal to or greater than a predetermined value.

本実施形態におけるSNRは次のように定義される。

Figure 0007197922000001
ここで、Pは信号のパワー、Pは雑音のパワーである。Pは、視聴試験を行うことにより、サイレンスであると判断された1秒の区間から算出している。録音データは、セグメントの候補となるサブセグメントサイズ:256、シフトサイズ:64で分割され、STE法によって、サブセグメント毎に、エネルギを計算することができる。SNR(Signal to Noise Ratio)が所定値以上を1として、所定値以下を0とする。1以上はセグメントであり、連続して続くサブセグメントはセグメントとして取り扱う。 The SNR in this embodiment is defined as follows.
Figure 0007197922000001
where P S is the power of the signal and P N is the power of the noise. PN is calculated from the 1-second interval determined to be silent by conducting a viewing test. The recorded data is divided into subsegment size: 256 and shift size: 64, which are candidates for segments, and energy can be calculated for each subsegment by the STE method. SNR (Signal to Noise Ratio) is set to 1 when it is equal to or higher than a predetermined value, and is set to 0 when it is equal to or lower than a predetermined value. One or more are segments, and consecutive subsegments are treated as segments.

生体音判定部123は、音響データに生体音が含まれるか否かをユーザの操作に応じて判定する。本実施形態では、ユーザが各セグメントの再生音を聴き、各セグメントに生体音である腸蠕動音(BS)が含まれているかを判定し、入力装置3を介して判定結果を入力する。これに応じて、生体音判定部123は、各セグメントにBS含まれるか否かを判定する。具体的には、生体音判定部123は、ユーザによってBSが含まれていると判定された区間をBSエピソードと定義し、各セグメントの範囲内にBSエピソードが存在していれば、当該セグメントをBSセグメントとし、存在していなければnon-BSセグメントとする。 The body sound determination unit 123 determines whether or not body sounds are included in the acoustic data according to the user's operation. In this embodiment, the user listens to the reproduced sound of each segment, determines whether or not each segment includes intestinal peristalsis (BS), which is a body sound, and inputs the determination result via the input device 3 . In response to this, body sound determination section 123 determines whether or not each segment includes BS. Specifically, the body sound determination unit 123 defines a section determined by the user to include BS as a BS episode, and if a BS episode exists within the range of each segment, the segment is defined as a BS episode. BS segment, and if it does not exist, it is a non-BS segment.

なお、非接触マイクロフォンを用いて獲得されるBSは一般的に音が小さく、音響データのSNは劣化する。しかし、人間による聴覚評価では、ほぼ100%の精度でBSの有無を識別することができる。 It should be noted that the BS acquired using a non-contact microphone generally has a low sound and the SN of the acoustic data is degraded. However, human auditory evaluation can identify the presence or absence of BS with almost 100% accuracy.

特徴量抽出部124は、音響データにおける特徴量を抽出する。本実施形態では、特徴量は、PNCC(power normalized cepstral coefficients)であるが、本発明はこれに限定されない。特徴量として、例えば、MFCC(mel-frequency cepstral coefficients)、△PNCC、△△PNCC、△MFCC、△△MFCC、BSF、フォルマントに関連する特徴、ピッチに関連する特徴、LPC係数、スペクトルフラットネス、対数エネルギ、有音区間の持続時間、ZCR、および近似エントロピーなどのエントロピーに基づく指標、ならびに、それらの統計量(平均、標準偏差など)を用いることができる。なお、PNCCの詳細については、Kim, Chanwoo, and Richard M. Stern. "Power-normalized cepstral coefficients (PNCC) for robust speech recognition." Acoustics, Speech
and Signal Processing (ICASSP), 2012 IEEE International Conference on. IEEE, 2012.を参照されたい。
The feature amount extraction unit 124 extracts feature amounts in the acoustic data. In this embodiment, the feature quantity is PNCC (power normalized cepstral coefficients), but the present invention is not limited to this. Features include, for example, MFCC (mel-frequency cepstral coefficients), ΔPNCC, ΔΔPNCC, ΔMFCC, ΔΔMFCC, BSF, formant-related features, pitch-related features, LPC coefficients, spectral flatness, Entropy-based measures such as logarithmic energy, talkspurt duration, ZCR, and approximate entropy, as well as their statistics (mean, standard deviation, etc.) can be used. For details of PNCC, see Kim, Chanwoo, and Richard M. Stern. "Power-normalized cepstral coefficients (PNCC) for robust speech recognition." Acoustics, Speech
and Signal Processing (ICASSP), 2012 IEEE International Conference on. IEEE, 2012.

MFCCは、特に音声認識の分野において、声道特性を表す特徴量とも言われ、一般的に使用されてきた。このMFCCは、声道特性を連想するような生体音の検出に対しても適用されてきたが、本発明者らの調査によれば、本願出願時点まで、声道特性との関係性を連想できない、腸音の検出には利用されなかった。MFCCは、ヒトの聴覚系を簡易的に模擬したメルスケールと呼ばれる対数軸上に等間隔に配置された三角フィルタバンクの出力に対し離散コサイン変換を行うことにより算出される。 MFCC is also called a feature value representing vocal tract characteristics, and has been generally used particularly in the field of speech recognition. This MFCC has also been applied to the detection of body sounds associated with vocal tract characteristics. No, it was not used to detect bowel sounds. The MFCC is calculated by performing a discrete cosine transform on the output of a triangular filter bank, called a melscale, which is a simple simulation of the human auditory system, and which is arranged at regular intervals on a logarithmic axis.

PNCCは、雑音環境下での音声認識システムの頑健性を改善するために開発された特徴量である。しかしながら、PNCCは、録音データのサンプリングレートが低い場合(例えば、聴診器の録音データのような場合)、検出対象とするサウンドデータの音響やスペクトルの特性によっては、MFCCより検出性能が劣化する場合があるとの報告がある。PNCCは、ヒトの生理的な側面により近くなるようにMFCCを算出する過程を改善したものである。PNCCはMFCCに比べ、主に、以下の3つの点が異なっている。 PNCC is a feature quantity developed to improve the robustness of speech recognition systems in noisy environments. However, when the sampling rate of recorded data is low (for example, when recording data from a stethoscope), PNCC may have worse detection performance than MFCC depending on the acoustic and spectral characteristics of the sound data to be detected. There is a report that there is PNCC is an improvement on the process of calculating MFCC to more closely approximate human physiology. PNCC differs from MFCC mainly in the following three points.

1つ目は、MFCCで使用される三角フィルタバンクの代わりに蝸牛の働きを模擬するために等価長方形帯域幅に基づくガンマトーンフィルタバンクを使用している点である。2つ目は、MFCCの算出過程には使用されていない、中時間処理された音声の算術平均及び幾何平均の比(AM-to-GM ratio)に基づいたバイアスサブトラクションを使用している点である。3つ目は、MFCCで使用される対数非線形性をべき乗非線形性に置き換える点である。これらにより、雑音に頑健な音声処理が可能となると言われている。 First, instead of the triangular filterbank used in MFCC, we use a gammatone filterbank based on the equivalent rectangular bandwidth to simulate the working of the cochlea. Second, it uses biased subtraction based on the AM-to-GM ratio of mid-time processed speech, which is not used in the MFCC calculation process. be. The third point is to replace the logarithmic nonlinearity used in MFCC with power nonlinearity. It is said that these technologies enable speech processing that is robust against noise.

BSF(bowel sound feature):BSF1~BSF5は、本発明者らが見出した新たな特徴量である。PNCC特徴抽出の構造において、transfer functions of a 24-channel gammatone-shaped bankに基づく squared gammatone integration 処理、peak power normalization 処理、パワーバイアスサブトラクション処理後のパワー:U(i,l)にPower-law nonlinearityを適用したパワーは次のように表現される。
GV(i,l)=U(i,l)1/15
ここでiはフレーム、lはチャネルインデックスである。
BSF (bowel sound feature): BSF1 to BSF5 are new features discovered by the present inventors. In the structure of PNCC feature extraction, squared gammatone integration processing based on transfer functions of a 24-channel gammatone-shaped bank, peak power normalization processing, power after power bias subtraction processing: Power-law nonlinearity to U(i,l) The applied power is expressed as:
GV(i,l)=U(i,l) 1/15
where i is the frame and l is the channel index.

BSF1:パワー:GV(i,l)に基づいて得られる、新たなBS特徴量である。BSF1の算出方法はいくつか存在するが、本明細書では、その1つをαとする。αは、パワー:GV(i,l)から、GV(i,l)の平均値を差し引いた値の二乗和をとる。

Figure 0007197922000002
α以外のBSF1として、例えば、フレームごとに、GV(i,l)の中心モーメントを使用することができる。GV(i,l)は、0から1にスケーリングすることもできる。 BSF1: Power: A new BS feature quantity obtained based on GV(i,l). There are several methods for calculating BSF1, one of which is α i in this specification. α i is the sum of the squares of the power: GV(i,l) minus the average value of GV(i,l).
Figure 0007197922000002
As BSF1 other than α i , for example, the central moment of GV(i,l) can be used for each frame. GV(i,l) can also be scaled from 0 to 1.

BSF2:PNCCとパワースペクトルに基づいて得られる、新たなBS特徴量である。本明細書では、BSF2の1つをβとする。βは、フレームごとに、S次元のPNCCの平均値をパワースペクトルの平均値で割って得られる。

Figure 0007197922000003
ここで、c(s)は、i番目のフレームにおけるs次元目のPNCCである。Pi(f)は、i番目のフレームにおけるパワースペクトルを表している。 BSF2: A new BS feature obtained based on PNCC and power spectrum. In this specification, one of the BSF2 is designated as β i . β i is obtained by dividing the mean value of the S-dimensional PNCC by the mean value of the power spectrum for each frame.
Figure 0007197922000003
where c i (s) is the s-th PNCC in the i-th frame. Pi(f) represents the power spectrum in the i-th frame.

BSF3:PNCCに基づいて得られる、新たなBS特徴量である。本明細書では、BSF3の1つをγとする。γは、フレームごとに、S次元のPNCCの分散値を求めたものである。

Figure 0007197922000004
ここで、cバーは、i番目のフレームにおけるPNCCの平均値である。 BSF3: A new BS feature obtained based on PNCC. One of the BSF3s is referred to herein as γi. γ i is the variance value of the S-dimensional PNCC for each frame.
Figure 0007197922000004
where c i is the average value of PNCC in the i-th frame.

BSF4:これもPNCCに基づいて得られる、新たなBS特徴量である。本明細書では、BSF4の1つをζとする。ζは、フレームごとに、S次元のPNCCの二乗和を求めたものである。

Figure 0007197922000005
この特徴量は、BSF3とほぼ等価であり。状況に応じて、BSF3か、BSF4、どちらかが選択されるべきである。 BSF4: This is a new BS feature also obtained based on PNCC. In this specification, one of BSF4 is designated as ζ i . ζ i is the sum of squares of the S-dimensional PNCC for each frame.
Figure 0007197922000005
This feature amount is almost equivalent to BSF3. Either BSF3 or BSF4 should be selected depending on the situation.

BSF5:マニュアルラベリング、もしくは、自動抽出により獲得されたBSセグメント長:Tである。 BSF5: BS segment length: T obtained by manual labeling or automatic extraction.

BSF1、BSF2、BSF3、BSF4は、パワーバイアスサブトラクション処理を省いた場合、フィルタバンクをメルフィルタバンク等に変えた場合においても計算することができる。特に、BSF3はSTEに代わる特徴量として期待される。 BSF1, BSF2, BSF3, and BSF4 can be calculated even when the power bias subtraction process is omitted, or when the filter bank is changed to a mel filter bank or the like. In particular, BSF3 is expected as a feature quantity to replace STE.

本実施形態において、特徴量抽出部124は、セグメント検出部122が検出した各セグメントにおけるPNCCを抽出するが、特徴量はこれに限定されない。そして、教師データ作成部12は、生体音判定部123の判定結果と特徴量抽出部124によって抽出されたPNCCとを、セグメントごとに対応付けることにより、教師データD1を作成する。教師データD1は、例えば補助記憶装置11に保存される。 In this embodiment, the feature amount extraction unit 124 extracts the PNCC in each segment detected by the segment detection unit 122, but the feature amount is not limited to this. Then, the teacher data creation unit 12 creates teacher data D1 by associating the determination result of the body sound determination unit 123 with the PNCC extracted by the feature quantity extraction unit 124 for each segment. The teacher data D1 is stored in the auxiliary storage device 11, for example.

学習部13は、教師データD1に基づいて、予測アルゴリズムD2を学習する機能ブロックである。本実施形態では、学習部13は、人工ニューラルネットワーク(ANN)で構成される。ANNの構造は、入力層、中間層、出力層の少なくとも三層からなる階層型ニューラルネットワークである。学習済みの予測アルゴリズムD2は、例えば補助記憶装置11に保存される。 The learning unit 13 is a functional block that learns the prediction algorithm D2 based on the teacher data D1. In this embodiment, the learning unit 13 is composed of an artificial neural network (ANN). The structure of ANN is a hierarchical neural network consisting of at least three layers: an input layer, an intermediate layer, and an output layer. The learned prediction algorithm D2 is stored in the auxiliary storage device 11, for example.

なお、学習部13はANNに限定されず、線形識別関数、Gaussian Mixture Model (GMM)、Support Vector Machine(SVM)、Probabilistic neural network(PNN)、Radial bias function network(RBFN)、Convolutional neural network(CNN)、DeepNN、DeepSVMなどの学習機械を用いて構築することも可能である。 The learning unit 13 is not limited to ANN, linear discriminant function, Gaussian Mixture Model (GMM), Support Vector Machine (SVM), Probabilistic neural network (PNN), Radial bias function network (RBFN), Convolutional neural network (CNN) ), DeepNN, and DeepSVM.

(機械学習方法)
本実施形態に係る機械学習方法は、図2に示す機械学習装置1を用いて実施される。図3は、本実施形態に係る機械学習方法の全体的な手順を示すフローチャートである。
(machine learning method)
The machine learning method according to this embodiment is implemented using the machine learning device 1 shown in FIG. FIG. 3 is a flow chart showing the overall procedure of the machine learning method according to this embodiment.

ステップS1では、音響データ取得部121が、集音装置4によって被験者5から得られた音響データを取得する(音響データ取得ステップ)。 In step S1, the acoustic data acquisition unit 121 acquires acoustic data obtained from the subject 5 by the sound collector 4 (acoustic data acquisition step).

ステップS2では、セグメント検出部122が、SNRが所定値以上のセグメントを音響データから複数検出する。 In step S2, the segment detection unit 122 detects a plurality of segments whose SNR is equal to or greater than a predetermined value from the acoustic data.

ステップS3では、生体音判定部122が、各セグメントに生体音(本実施形態では、腸蠕動音)が含まれるか否かをユーザの操作に応じて判定する(生体音判定ステップ)。 In step S3, the body sound determination unit 122 determines whether or not each segment includes a body sound (intestinal peristaltic sound in this embodiment) according to the user's operation (body sound determination step).

ステップS4では、各セグメントにおける特徴量を抽出する(特徴量抽出ステップ)。特徴量はPNCCを含むことが好ましい。ステップS3の判定結果とステップS4において抽出されたPNCCとを、セグメントごとに対応付けることにより、教師データD1が作成され。なお、ステップS3およびS4の順序は特に限定されない。 In step S4, the feature amount in each segment is extracted (feature amount extraction step). Preferably, the features include PNCC. Teacher data D1 is created by associating the determination result of step S3 with the PNCC extracted in step S4 for each segment. The order of steps S3 and S4 is not particularly limited.

その後、教師データD1が十分に蓄積されるまで(ステップS5においてYES)、被験者5を代えながらステップS1~S4が繰り返される。 After that, steps S1 to S4 are repeated while changing the subject 5 until enough teacher data D1 is accumulated (YES in step S5).

ステップS6では、学習部13が教師データD1に基づいて、予測アルゴリズムD2を学習する。 At step S6, the learning unit 13 learns the prediction algorithm D2 based on the teacher data D1.

(解析装置)
以下では、学習済みの予測アルゴリズムD2を用いて、音響データに生体音が含まれているかの予測等を行う形態について説明する。
(Analysis device)
A form of predicting whether or not body sounds are included in acoustic data using the learned prediction algorithm D2 will be described below.

図4は、本実施形態に係る解析装置2の機能を示すブロック図である。解析装置2は、図2に示す機械学習装置1と同様に、例えば汎用のパーソナルコンピュータで構成することができる。すなわち、解析装置2は、ハードウェア構成として、CPU(図示せず)、主記憶装置(図示せず)、補助記憶装置51などを備えている。解析装置2では、CPUが補助記憶装置51に記憶された各種プログラムを主記憶装置に読み出して実行することにより、各種演算処理を実行する。補助記憶装置51は、例えばハードディスクドライブ(HDD)やソリッドステートドライブ(SSD)で構成することができ、学習済みの予測アルゴリズムD2が記憶されている。また、補助記憶装置51は、解析装置2に内蔵されてもよいし、解析装置2とは別体の外部記憶装置として設けてもよい。 FIG. 4 is a block diagram showing functions of the analysis device 2 according to this embodiment. The analysis device 2 can be composed of, for example, a general-purpose personal computer, like the machine learning device 1 shown in FIG. That is, the analysis device 2 includes a CPU (not shown), a main storage device (not shown), an auxiliary storage device 51, etc. as a hardware configuration. In the analysis device 2, the CPU reads various programs stored in the auxiliary storage device 51 into the main storage device and executes them, thereby executing various arithmetic processing. The auxiliary storage device 51 can be composed of, for example, a hard disk drive (HDD) or a solid state drive (SSD), and stores the learned prediction algorithm D2. Further, the auxiliary storage device 51 may be built in the analysis device 2 or may be provided as an external storage device separate from the analysis device 2 .

解析装置2には、集音装置4および表示装置6が接続されている。集音装置4は、図2に示す集音装置4と同一の構成とすることができる。表示装置6は、例えば液晶ディスプレイで構成することができる。 A sound collector 4 and a display device 6 are connected to the analysis device 2 . The sound collector 4 can have the same configuration as the sound collector 4 shown in FIG. The display device 6 can be composed of, for example, a liquid crystal display.

解析装置2は、上述の機械学習装置1によって学習された予測アルゴリズムに従って、対象者から得られた音響データに生体音が含まれているかを予測し、さらに、対象者7の状態を評価する機能を有している。この機能を実現するために、解析装置2は、機能ブロックとして、音響データ取得部22、セグメント検出部23、特徴量抽出部24、生体音予測部25、生体音セグメント抽出部26および状態評価部(第1状態評価部)27を備えている。なお、解析装置2の機能の少なくとも一部を、集音装置4に搭載してもよい。 The analysis device 2 has a function of predicting whether the acoustic data obtained from the subject includes body sounds according to the prediction algorithm learned by the machine learning device 1 described above, and further evaluating the state of the subject 7. have. In order to realize this function, the analysis device 2 includes, as functional blocks, an acoustic data acquisition unit 22, a segment detection unit 23, a feature amount extraction unit 24, a body sound prediction unit 25, a body sound segment extraction unit 26, and a state evaluation unit. (First state evaluation unit) 27 is provided. At least part of the functions of the analysis device 2 may be installed in the sound collector 4 .

音響データ取得部22、セグメント検出部23および特徴量抽出部24は、図2に示す機械学習装置1の音響データ取得部121、セグメント検出部122および特徴量抽出部124とそれぞれ同一の機能を有している。すなわち、音響データ取得部22は、集音装置4によって対象者7から得られた音響データを取得し、セグメント検出部23は、音響データ取得部22によって取得された音響データから、複数のセグメントを検出し、特徴量抽出部24は、音響データにおける特徴量を抽出する。特徴量抽出部24が用いる特徴量は、機械学習装置1の特徴量抽出部124において用いられた特徴量と同一である。 The acoustic data acquisition unit 22, the segment detection unit 23, and the feature amount extraction unit 24 have the same functions as the acoustic data acquisition unit 121, the segment detection unit 122, and the feature amount extraction unit 124 of the machine learning device 1 shown in FIG. doing. That is, the acoustic data acquisition unit 22 acquires acoustic data obtained from the subject 7 by the sound collector 4, and the segment detection unit 23 extracts a plurality of segments from the acoustic data acquired by the acoustic data acquisition unit 22. The feature quantity extraction unit 24 extracts the feature quantity in the acoustic data. The feature quantity used by the feature quantity extraction unit 24 is the same as the feature quantity used in the feature quantity extraction unit 124 of the machine learning device 1 .

生体音予測部25は、予測アルゴリズムD2に従って、音響データに生体音が含まれているかを予測する。本実施形態では、生体音予測部25は、セグメント検出部23によって検出された各セグメントについて、特徴量抽出部24によって抽出された特徴量に基づき、当該セグメントに腸蠕動音(BS)が含まれているかを予測する。より具体的には、生体音予測部25は、各セグメントについて、BSが含まれている可能性を示す0~1の予測スコアを予測結果として出力する。 The body sound prediction unit 25 predicts whether or not body sounds are included in the acoustic data according to the prediction algorithm D2. In the present embodiment, the body sound prediction unit 25 determines whether each segment detected by the segment detection unit 23 includes intestinal peristaltic sounds (BS) based on the feature amount extracted by the feature amount extraction unit 24. predict whether More specifically, body sound prediction section 25 outputs a prediction score of 0 to 1 indicating the possibility that BS is included in each segment as a prediction result.

生体音セグメント抽出部26は、生体音予測部25の予測結果に基づいて、音響データから生体音が含まれているセグメントを抽出する。本実施形態では、セグメント検出部23によって検出されたセグメントの中から、予測スコアが最適閾値Tよりも大きいセグメントを、BSが含まれているセグメント(BSセグメント)として抽出する。The body sound segment extraction unit 26 extracts segments containing body sounds from the acoustic data based on the prediction result of the body sound prediction unit 25 . In this embodiment, from among the segments detected by the segment detection unit 23, a segment whose prediction score is greater than the optimum threshold Th is extracted as a segment containing a BS (BS segment).

最適閾値Tは、次のように設定する。まず、生体音予測部25の予測スコアをもとに、受信者動作特性(ROC : Receiver Operating Characteristic)解析を行うことにより、カットオフポイントにおける感度(Sensitivity)、特異度(Specificity)、精度(Accuracy)を次のように求めることができる。

Figure 0007197922000006
ここで、TP、TN、FP、FNの定義は以下の通りである。
True Positive(TP):BSセグメントを自動抽出した数
True Negative(TN):non-BSセグメントを自動抽出しなかった数
False Negative(FN):BSセグメントを自動抽出しなかった数
False Positive(FP):non-BSセグメントを自動抽出した数 The optimum threshold Th is set as follows. First, based on the prediction score of the body sound prediction unit 25, receiver operating characteristic (ROC) analysis is performed to determine sensitivity, specificity, and accuracy at the cutoff point. ) can be obtained as follows.
Figure 0007197922000006
Here, the definitions of TP, TN, FP and FN are as follows.
True Positive (TP): Number of automatically extracted BS segments
True Negative (TN): Number of non-BS segments that were not automatically extracted
False Negative (FN): Number of BS segments not automatically extracted
False Positive (FP): Number of automatically extracted non-BS segments

ROC曲線において、感度:1、特異度:1の位置からのユーグリッド距離が最短となる点を基に、最適閾値Tが決定される。本実施形態では、例えばT=0.55に設定することができる。The optimal threshold Th is determined based on the point with the shortest Euclid distance from the position of sensitivity: 1 and specificity: 1 in the ROC curve. In this embodiment, for example, T h can be set to 0.55.

状態評価部27は、生体音セグメント抽出部26によって抽出されたセグメントに基づいて、対象者7の状態を評価する。本実施形態では、状態評価部27は、前記状態として腸運動性を評価する。状態評価部27の評価結果は、例えば表示装置6に表示される。 The state evaluation unit 27 evaluates the state of the subject 7 based on the segments extracted by the body sound segment extraction unit 26 . In this embodiment, the state evaluation unit 27 evaluates intestinal motility as the state. The evaluation result of the state evaluation unit 27 is displayed on the display device 6, for example.

(解析方法)
本実施形態に係る解析方法は、図4に示す解析装置2を用いて実施される。図5は、本実施形態に係る解析方法の全体的な手順を示すフローチャートである。
(analysis method)
The analysis method according to this embodiment is performed using the analysis device 2 shown in FIG. FIG. 5 is a flow chart showing the overall procedure of the analysis method according to this embodiment.

ステップS11では、音響データ取得部22が、集音装置4によって対象者7から得られた音響データを取得する(音響データ取得ステップ)。 In step S11, the acoustic data acquisition unit 22 acquires acoustic data obtained from the subject 7 by the sound collector 4 (acoustic data acquisition step).

ステップS12では、セグメント検出部23が、SNRが所定値以上のセグメントを音響データから複数検出する。 In step S12, the segment detection unit 23 detects a plurality of segments whose SNR is equal to or greater than a predetermined value from the sound data.

ステップS13では、特徴量抽出部24が各セグメントにおける特徴量を抽出する。ここでの特徴量は、上述の機械学習方法のステップS4において用いられた特徴量と同一である。 In step S13, the feature quantity extraction unit 24 extracts the feature quantity in each segment. The feature amount here is the same as the feature amount used in step S4 of the machine learning method described above.

ステップS14では、生体音予測部25が、予測アルゴリズムD2に従って、音響データに生体音が含まれているかを予測する(予測ステップ)。本実施形態では、生体音予測部25は、特徴量抽出部24が抽出したセグメントに腸蠕動音(BS)が含まれているかを予測する。 In step S14, the body sound prediction unit 25 predicts whether or not body sounds are included in the acoustic data according to the prediction algorithm D2 (prediction step). In this embodiment, the body sound prediction unit 25 predicts whether the segment extracted by the feature amount extraction unit 24 includes intestinal peristaltic sound (BS).

Figure 0007197922000007
Figure 0007197922000007

BSが含まれているかの予測が行われていない他のセグメントがある場合(ステップS17においてYES)、ステップS13に戻り、S16までの処理を繰り返す。 If there is another segment that has not been predicted to include a BS (YES in step S17), the process returns to step S13 and repeats the processes up to step S16.

一方、他のセグメントがない場合(ステップS17においてNO)、ステップS18において、状態評価部27が、抽出されたセグメントに基づいて、対象者7の状態を評価する(状態評価ステップ)。本実施形態では、状態評価部27が、BSセグメントに基づいて、対象者7の腸運動性を評価する。例えば、以下に記載してあるように、腸運動性の評価には、1分あたりのBSセグメント数、BS長、BSセグメントのエネルギ、BSセグメント間隔が使用できる。また、検出したBSセグメントに対してフィジカルアセスメントの概念を適用することができる。 On the other hand, if there is no other segment (NO in step S17), in step S18, the state evaluation unit 27 evaluates the state of the subject 7 based on the extracted segment (state evaluation step). In this embodiment, the state evaluation unit 27 evaluates the intestinal motility of the subject 7 based on the BS segment. For example, the number of BS segments per minute, BS length, BS segment energy, and BS segment interval can be used to assess gut motility, as described below. Also, the concept of physical assessment can be applied to the detected BS segment.

以上により、解析装置2は、学習済みの予測アルゴリズムD2を用いて、音響データに生体音が含まれているかの予測等を行う。ここで、予測アルゴリズムD2は、機械学習装置1における機械学習によって得られたものであり、十分な量の教師データD1を用いて機械学習させることで、解析装置2の予測精度を高めることが可能となる。特に、本実施形態では、予測に用いる音響データの特徴量が、PNCC、MFCC、△PNCC、△△PNCC、△MFCC、△△MFCC、フォルマントに関連する特徴、ピッチに関連する特徴、LPC係数、スペクトルフラットネス、対数エネルギ、有音区間の持続時間、ZCR、および近似エントロピーなどのエントロピーに基づく指標、ならびに、それらの統計量の少なくともいずれかを含んでいる。これらの特徴量は、雑音耐性に優れているので、集音装置4によって得られた音響データに雑音が多く含まれている場合であっても、音響データに生体音が含まれているか否かを高精度に予測することができる。よって、音響データから生体音が含まれているセグメントを自動的に抽出することが可能となり、対象者7の状態評価を簡便に行うことができる。 As described above, the analysis device 2 uses the learned prediction algorithm D2 to predict whether or not body sounds are included in the acoustic data. Here, the prediction algorithm D2 is obtained by machine learning in the machine learning device 1, and by performing machine learning using a sufficient amount of teacher data D1, it is possible to increase the prediction accuracy of the analysis device 2. becomes. In particular, in the present embodiment, the feature amounts of acoustic data used for prediction are PNCC, MFCC, ΔPNCC, ΔΔPNCC, ΔMFCC, ΔΔMFCC, formant-related features, pitch-related features, LPC coefficients, Entropy-based measures such as spectral flatness, log energy, talkspurt duration, ZCR, and approximate entropy, and/or statistics thereof. Since these feature quantities are excellent in noise resistance, even if the acoustic data obtained by the sound collector 4 contains a lot of noise, it is possible to determine whether the acoustic data contains body sounds. can be predicted with high accuracy. Therefore, it becomes possible to automatically extract a segment containing body sounds from the acoustic data, and the condition of the subject 7 can be easily evaluated.

[変形例]
本変形例では、生体音の有無に加え、生体音の種類を予測する構成について説明する。本変形例において、上記実施形態におけるものと同じ機能を有する部材については、同じ符号を付し、その説明を省略する。
[Modification]
In this modified example, a configuration for predicting the type of body sound in addition to the presence or absence of body sound will be described. In this modified example, members having the same functions as those in the above embodiment are denoted by the same reference numerals, and descriptions thereof are omitted.

図6は、本変形例に係る機械学習装置1’の機能を示すブロック図である。機械学習装置1’は、図2に示す機械学習装置1において、教師データ作成部12を教師データ作成部12’に置き換えた構成であり、教師データ作成部12’は、教師データ作成部12において、分類判定部125をさらに備えた構成である。 FIG. 6 is a block diagram showing functions of a machine learning device 1' according to this modification. The machine learning device 1' has a configuration in which the teacher data creation unit 12 is replaced with a teacher data creation unit 12' in the machine learning device 1 shown in FIG. , and a classification determination unit 125 .

分類判定部125は、音響データに生体音が含まれる場合、前記生体音の種類をユーザの操作に応じて判定する機能ブロックである。本変形例では、分類判定部125は、生体音判定部123によって腸蠕動音(BS)が含まれていると判定されたBSセグメントについて、入力装置3を介したユーザの操作に応じて、当該BSの種類を判定する。BSの種類は、例えば「グー」、「キュルキュル」、「ポコ」などの擬音に応じて分類することができる。なお、BSを分類するカテゴリーや数は、特に限定されない。 The classification determination unit 125 is a functional block that determines the type of the body sound according to the user's operation when the sound data includes the body sound. In this modification, the classification determination unit 125 determines that the body sound determination unit 123 determines that the BS segment includes the intestinal peristaltic sound (BS) according to the user's operation via the input device 3. Determine the type of BS. The types of BS can be classified according to onomatopoeic sounds such as "gu", "kyurukyuru", and "poco". The categories and number of BSs are not particularly limited.

フィジカルアセスメントの技術では、一般の聴診で(正常な)腸音として聴取される「グルグル・ゴロゴロという音」、短いポコ音、持続するギュー音や、腸音の亢進時に聴取される「グルグルと突進するような音」に分類することが出来る。打診時には、腸管ガスの貯留に関連する「ポンポンという音」、便秘(便がある部位)や膀胱内の尿の貯留に関連する「濁音」に分類することができると言われている。更に、腸蠕動音は、正常、亢進、減弱、消失に分類することができ、腸音の亢進は、感染性胃腸炎などの炎症や下痢、イレウスの沈静化時に聴取される。腸音の減弱は、手術による腹膜の炎症、便秘時に聴取される。腸音の消失は、イレウス時に聴取されると言われる。そのほかに、腹部の血管雑音の聴取は腹部動脈の狭窄病変が疑われると言われる。 In the physical assessment technique, it is possible to detect the ``gurguru rumbling sounds'' heard as (normal) bowel sounds in general auscultation, short popping sounds, sustained gurgling sounds, and the ``gurgling and rushing sounds'' heard when bowel sounds are enhanced. It can be classified as "sounds like When percussed, it is said that it can be classified into "popping sounds" associated with retention of intestinal gas, and "dull sounds" associated with constipation (where stool is located) or retention of urine in the bladder. Furthermore, intestinal peristaltic sounds can be classified into normal, increased, attenuated, and absent, and increased intestinal sounds are heard when inflammation such as infectious gastroenteritis, diarrhea, and ileus subside. Attenuation of bowel sounds is heard during peritoneal inflammation due to surgery and constipation. Absence of bowel sounds is said to be heard during ileus. In addition, hearing an abdominal vascular murmur is said to be suggestive of a stenotic lesion of the abdominal arteries.

教師データ作成部12’は、生体音判定部123の判定結果および分類判定部125の分類と特徴量抽出部124によって抽出されたPNCCとを、セグメントごとに対応付けることにより、教師データD1’を作成する。学習部13は、教師データD1’に基づいて、予測アルゴリズムD2’を学習する。 The teacher data creation unit 12' creates teacher data D1' by associating the determination result of the body sound determination unit 123, the classification of the classification determination unit 125, and the PNCC extracted by the feature amount extraction unit 124 for each segment. do. The learning unit 13 learns the prediction algorithm D2' based on the teacher data D1'.

図7は、本変形例に係る解析装置2’の機能を示すブロック図である。解析装置2’は、図4に示す解析装置2において、分類予測部28および状態評価部(第2状態評価部)29をさらに備えた構成である。 FIG. 7 is a block diagram showing functions of an analysis device 2' according to this modification. The analysis device 2 ′ has a configuration in which the classification prediction section 28 and the state evaluation section (second state evaluation section) 29 are further provided in the analysis device 2 shown in FIG. 4 .

分類予測部28は、音響データに生体音が含まれていると予測された場合に、予測アルゴリズムD2’に従って、前記生体音の種類を予測する機能ブロックである。本変形例では、生体音予測部25によって、BSが含まれていると予測されたセグメントについて、当該BSの種類を特徴量抽出部24が抽出したPNCC等の特徴量に基づいて予測する。これにより、BSの種類を自動判別することが可能となる。 The classification prediction unit 28 is a functional block that predicts the type of body sound according to the prediction algorithm D2' when it is predicted that the sound data contains the body sound. In this modification, for a segment predicted to include a BS by the body sound prediction unit 25, the type of the BS is predicted based on the feature amount such as PNCC extracted by the feature amount extraction unit 24. FIG. This makes it possible to automatically determine the type of BS.

状態評価部29は、分類予測部28によって予測された生体音の種類に基づいて、対象者7の状態を評価する。本実施形態では、状態評価部29は、前記状態として腸疾患の有無を評価する。状態評価部29の評価結果は、例えば表示装置6に表示される。 The state evaluation unit 29 evaluates the state of the subject 7 based on the types of body sounds predicted by the classification prediction unit 28 . In this embodiment, the condition evaluation unit 29 evaluates the presence or absence of intestinal disease as the condition. The evaluation result of the state evaluation unit 29 is displayed on the display device 6, for example.

このように、本変形例では、生体音を上述した音に分類することができる。また、ANNの出力層のユニットが1つの場合、生体音を2クラスに分類できるが、出力層のユニットを複数とすることにより、生体音を多クラスに分類できる。 Thus, in this modified example, body sounds can be classified into the sounds described above. Also, when the output layer of the ANN has one unit, body sounds can be classified into two classes, but by using a plurality of output layer units, body sounds can be classified into multiple classes.

なお、本変形例は、STE法を用いてSNRが所定値以上のセグメントを検出した後の腸音分類にも使用することができる。上記カテゴリーに生体音を分類することにより、それらの音の減少、消失、亢進を腸蠕動音の音響特徴量より計算して、疾患との関連を評価できる。 Note that this modification can also be used for bowel sound classification after detecting a segment with an SNR equal to or greater than a predetermined value using the STE method. By classifying the body sounds into the above categories, the decrease, disappearance, and enhancement of these sounds can be calculated from the acoustic feature values of the intestinal peristaltic sounds, and the relationship with diseases can be evaluated.

また、本変形例では、音響データに生体音が含まれているか否かの予測、および、生体音の種類の予測のために用いられる特徴量は、雑音に頑健な特徴量に限定されない。例えば、騒音の少ない環境下で、集音装置4として電子聴診器を用いた場合は、生体音の分類予測のためにあらゆる特徴量を用いることができる。 In addition, in this modification, the feature amount used for predicting whether or not the acoustic data contains body sounds and for predicting the type of body sounds is not limited to noise-robust feature amounts. For example, when an electronic stethoscope is used as the sound collector 4 in an environment with little noise, all feature amounts can be used for body sound classification prediction.

[付記事項]
本発明は上記実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、実施形態に開示された技術的手段を適宜組み合わせて得られる形態も本発明の技術的範囲に含まれる。
[Additional notes]
The present invention is not limited to the above embodiments, and can be modified in various ways within the scope of the claims. Forms obtained by appropriately combining technical means disclosed in the embodiments are also techniques of the present invention. included in the scope.

例えば、上記実施形態では、被験者から得られた音響データからセグメントを抽出し、各セグメントに対して、生体音が含まれているかの判定および特徴量抽出を行っていたが、セグメントの抽出は必須ではない。 For example, in the above embodiment, segments were extracted from the acoustic data obtained from the subject, and each segment was subjected to determination of whether body sounds were included and feature extraction. However, segment extraction is essential. is not.

また、上記実施形態では、生体音が腸蠕動音(BS)である場合について説明したが、生体活動に起因する生体音であれば特に限定されない。そのような生体音としては、心拍音、嚥下音、呼吸音(いびき)、発話音(しゃべり方)、歩行音などが挙げられる。 Further, in the above-described embodiment, a case where the body sound is intestinal peristaltic sound (BS) has been described, but there is no particular limitation as long as it is a body sound caused by body activity. Examples of such body sounds include heartbeat sounds, swallowing sounds, breathing sounds (snoring), utterance sounds (way of speaking), walking sounds, and the like.

以下、本発明の実施例について説明するが、本発明は下記実施例に限定されない。 Examples of the present invention will be described below, but the present invention is not limited to the following examples.

[実施例1]
実施例1では、特徴量としてMFCCおよびPNCCをそれぞれ用いて予測アルゴリズムを学習し、学習済みの予測アルゴリズムによって、音響データに腸蠕動音(BS)が含まれているかを予測し、BSが含まれている音響データの予測が可能であるかを検証した。
[Example 1]
In Example 1, a prediction algorithm is learned using MFCC and PNCC as feature quantities, and the learned prediction algorithm predicts whether or not intestinal peristaltic sound (BS) is included in acoustic data, and determines whether BS is included. We verified whether it is possible to predict the acoustic data

具体的には、研究内容に同意を得られた男性被験者20名(age:22.9±3.4、BMI:22.7±3.8)に対して炭酸水負荷試験(STT)を行った。被験者には12時間以上の絶食後に炭酸水を摂取してもらい、炭酸水摂取前の10分間の安静時、炭酸水摂取後15分間の安静時にSTTを行った。集音装置として、非接触マイクロフォン(RODE社製 NT55)、電子聴診器(Cardionics社製 E-Scope2)、マルチトラックレコーダ(ZOOM社製 R16)を用いて録音を行った。音響データは、サンプリング周波数44100Hz、ディジタル分解能16bitで獲得された。試験中、被験者は仰臥位の状態であり、電子聴診器を臍から右に9cmの位置に配置し、非接触マイクロフォンを臍から上方に20cmの位置に配置した。 Specifically, a carbonated water tolerance test (STT) was performed on 20 male subjects (age: 22.9 ± 3.4, BMI: 22.7 ± 3.8) who consented to the research content. rice field. The subjects were asked to ingest carbonated water after fasting for 12 hours or longer, and STT was performed during 10 minutes of rest before ingestion of carbonated water and during 15 minutes of rest after ingestion of carbonated water. A non-contact microphone (NT55, manufactured by RODE), an electronic stethoscope (E-Scope 2, manufactured by Cardionics), and a multitrack recorder (R16, manufactured by ZOOM) were used as sound collectors. Acoustic data were acquired at a sampling frequency of 44100 Hz and a digital resolution of 16 bits. During testing, subjects were in a supine position with an electronic stethoscope positioned 9 cm to the right of the navel and a non-contact microphone positioned 20 cm above the navel.

非接触マイクロフォンから取得された音響データを機械学習装置に取り込んだ後、SNRが所定値以上のセグメントを検出した(図3のステップS2)。腸蠕動音(BS)は一般的に100Hzから500Hzの間に主要周波数成分が存在すると報告されているため、音響データに対して、4000Hzへのダウンサンプリング処理、さらに、3次バターワース・バンドパスフィルタ処理(カットオフ周波数:100Hz~1500Hz)を行なった。(以下全ての実施例において、前処理として、音響データに対して、この3次のバターワース・バンドパスフィルタ処理が行われていることに注意されたい。)解析のために、音響データは、窓幅:256サンプル、シフト幅:64サンプルでセグメントに分割し、STE法により、窓幅毎にパワーを計算し、SNRが所定値以上のセグメントを検出した。 After the acoustic data acquired from the non-contact microphone was loaded into the machine learning device, segments with an SNR equal to or greater than a predetermined value were detected (step S2 in FIG. 3). It is reported that intestinal peristaltic sound (BS) generally has a main frequency component between 100 Hz and 500 Hz. Processing (cutoff frequency: 100 Hz to 1500 Hz) was performed. (Note that in all of the examples below, this third-order Butterworth bandpass filtering is performed on the acoustic data as preprocessing.) For analysis, the acoustic data is windowed It was divided into segments with a width of 256 samples and a shift width of 64 samples, power was calculated for each window width by the STE method, and segments with an SNR equal to or greater than a predetermined value were detected.

続いて、各セグメントにBSが含まれているかの生体音判定(図3のステップS3)を人間の聴覚評価によって行った。非接触マイクロフォンの録音データに含まれるBSは、電子聴診器の録音データにおいても含まれているため、生体音判定では、音声再生ソフトウェア上で、両録音データを注意深く視聴し、耳でBSを識別できた20ms以上のエピソードをBSセグメントとしてラベリングを行なった。 Subsequently, body sound determination (step S3 in FIG. 3) was performed by human auditory evaluation to determine whether each segment contained BS. The BS included in the data recorded by the non-contact microphone is also included in the data recorded by the electronic stethoscope. The resulting episodes of 20 ms or longer were labeled as BS segments.

また、各セグメントにおいて、MFCCおよびPNCCの2つの特徴量を抽出した(図3のステップS4)。本実施例では、MFCCおよびPNCCのそれぞれについて、周波数帯を考慮し24チャネルのガンマトーンフィルタをもとに計算した。MFCCおよびPNCCは、セグメントを、フレームサイズ:200、シフトサイズ:100で分割して、フレーム毎に計算が行われた。そのため、各セグメントにおいて、平均化した13次元のMFCCおよび13次元のPNCCを特徴量として使用した。 Also, two feature quantities, MFCC and PNCC, were extracted from each segment (step S4 in FIG. 3). In this embodiment, calculations were made based on 24-channel gammatone filters in consideration of frequency bands for each of MFCC and PNCC. MFCC and PNCC were calculated for each frame by dividing the segment by frame size: 200 and shift size: 100. Therefore, in each segment, the averaged 13-dimensional MFCC and 13-dimensional PNCC were used as features.

以上により、20名分の音響データから、BSセグメントおよびnon-BSセグメント、および、各セグメントの特徴量を取得した。そして、これらのセグメントのうち、3/4を教師データとして用い、残りの1/4を評価用データとして用いた。 As described above, the BS segment and the non-BS segment, and the feature amount of each segment were acquired from the acoustic data of 20 persons. 3/4 of these segments were used as training data, and the remaining 1/4 were used as evaluation data.

予測アルゴリズムの学習では、入力層、中間層および出力層のユニット数がそれぞれ13、25および1の人工ニューラルネットワーク(ANN)を用いた。中間層ユニットの出力関数は双曲線正接関数であり、出力層ユニットの伝達関数は線形関数であった。教師信号として、学習対象のセグメントがBSセグメントであれば1、non-BSセグメントであれば0を与え、Levenberg-Marquardt法に基づく誤差逆伝搬法によりANNを学習させ、予測アルゴリズムを作成した。なお、学習アルゴリズムには、誤差逆伝搬法の他、弾性逆伝搬法等が使用可能である。中間層、出力層のユニットの出力関数には例えば、softmax等が使用可能である。 In learning the prediction algorithm, an artificial neural network (ANN) with 13, 25, and 1 units in the input layer, intermediate layer, and output layer, respectively, was used. The output function of the hidden layer unit was a hyperbolic tangent function and the transfer function of the output layer unit was a linear function. As a teacher signal, 1 is given if the segment to be learned is a BS segment, and 0 is given if it is a non-BS segment, and the ANN is learned by the error backpropagation method based on the Levenberg-Marquardt method to create a prediction algorithm. In addition to the error backpropagation method, the elastic backpropagation method or the like can be used as the learning algorithm. For example, softmax or the like can be used as the output function of the units in the intermediate layer and the output layer.

予測アルゴリズムの学習及び評価は、(1)結合荷重の初期値をランダムに、(2)学習データおよび評価用データをランダムに与えて複数回試行した。これにより、予測アルゴリズムの予測精度の平均値を計算した。 For the learning and evaluation of the prediction algorithm, (1) initial values of connection weights were randomly given, and (2) learning data and evaluation data were randomly given, and trials were repeated multiple times. From this, the average prediction accuracy of the prediction algorithm was calculated.

1人の被験者の音響データから腸運動性を評価するために、leave one out交差検証を通して、予測アルゴリズムを用いて自動抽出された複数のセグメントから上述の2つの音響特徴量を抽出した。そして、被験者が炭酸水を摂取する前後のこれらの音響特徴量の違いを、ウィルコクソンの符号順位和検定を用いて評価した。 In order to evaluate gut motility from the acoustic data of one subject, we extracted the above two acoustic features from multiple segments automatically extracted using the predictive algorithm through leave-one-out cross-validation. Wilcoxon's signed rank sum test was then used to evaluate the difference in these acoustic features before and after the subject ingested the carbonated water.

本実施例では、STE法において音響データからセグメントを検出するための基準となるSNRの所定値(基準値)が、予測アルゴリズムの予測精度および腸運動性の評価にどのような影響を与えるのかを調査するために、SNRの所定値を0、0.5、1、2dBと変化させた。基準値ごとに得られたBSセグメントおよびNon-BSセグメントの、数および長さを表1に示す。 In the present example, the influence of a predetermined value (reference value) of SNR, which is a reference for detecting segments from acoustic data in the STE method, on the prediction accuracy of the prediction algorithm and the evaluation of intestinal motility was investigated. For the investigation, the predetermined value of SNR was varied from 0, 0.5, 1, 2 dB. Table 1 shows the number and length of BS segments and non-BS segments obtained for each reference value.

Figure 0007197922000008
Figure 0007197922000008

表1より、炭酸水摂取前と摂取後の両者ともに、Non-BSセグメントの数は基準値の低下に伴って増加するが、炭酸水摂取前のBSセグメントの数は一定の基準値を境に減少する傾向にあり、炭酸水摂取後のBSセグメントの数は基準値の低下に伴って低下する傾向にあることが分かった。また、BSセグメントおよびNon-BSセグメントとも、基準値の低下に伴い、大きくなっていることが確認できる。また、BSセグメントの数および長さ、ならびに、Non-BSセグメントの数は、炭酸水摂取前よりも摂取後のほうが大きく、Non-BSセグメントの長さは、炭酸水摂取前よりも摂取後のほうが小さい。 From Table 1, both before and after ingestion of carbonated water, the number of Non-BS segments increases with a decrease in the reference value, but the number of BS segments before ingestion of carbonated water reaches a certain reference value. It was found that the number of BS segments after ingestion of carbonated water tended to decrease as the reference value decreased. Also, it can be confirmed that both the BS segment and the Non-BS segment increase as the reference value decreases. In addition, the number and length of BS segments and the number of Non-BS segments are greater after ingestion than before ingestion of carbonated water, and the length of Non-BS segments is greater after ingestion than before ingestion of carbonated water. smaller.

Figure 0007197922000009
Figure 0007197922000009

Figure 0007197922000010
Figure 0007197922000010
Figure 0007197922000011
Figure 0007197922000011

表2によれば、特徴量がMFCCの場合、炭酸水摂取前では、基準値の減少とともに、精度が劣化することが分かった。一方で炭酸水摂取後では、基準値の減少とともに精度が概ね高くなることが分かった。表3によれば、特徴量がPNCCの場合、炭酸水摂取前後のいずれにおいても、基準値の減少とともに、精度が高くなり、基準値が0dBの場合、最も高い精度が得られることが分かった。 According to Table 2, when the feature amount is MFCC, it was found that the accuracy deteriorated as the reference value decreased before ingestion of carbonated water. On the other hand, after ingesting carbonated water, it was found that the accuracy generally increased as the reference value decreased. According to Table 3, when the feature value is PNCC, both before and after ingestion of carbonated water, the accuracy increases as the reference value decreases, and the highest accuracy is obtained when the reference value is 0 dB. .

図8は、特徴量がMFCCおよびPNCCである場合の予測精度(Acc)をSNRの基準値毎に示したグラフであり、(a)は炭酸水摂取前のグラフ、(b)は炭酸水摂取後のグラフである。図8から、SNRの全ての基準値において、PNCCを用いた場合の精度のほうが、MFCCを用いた場合の精度より高いことが分かった。特に、SNRの基準値が0dBの場合、炭酸水摂取前におけるPNCCの標準偏差はMFCCの標準偏差と比べ小さくなり、PNCCの平均値はMFCCの平均値に比べ、十分高くなることが分かった。一般に炭酸水摂取前では、摂取後と比較して、音圧の低いBSが多く発生していることから、BSが含まれているかの予測を行うための特徴量は、PNCCが特に有効であることが分かった。 FIG. 8 is a graph showing the prediction accuracy (Acc) for each SNR reference value when the feature amount is MFCC and PNCC, (a) is the graph before carbonated water intake, (b) is the carbonated water intake Later graph. From FIG. 8, it can be seen that the accuracy when using PNCC is higher than the accuracy when using MFCC at all reference values of SNR. In particular, when the reference value of SNR is 0 dB, the standard deviation of PNCC before ingesting carbonated water is smaller than the standard deviation of MFCC, and the average value of PNCC is sufficiently higher than the average value of MFCC. In general, before ingestion of carbonated water, many BS with low sound pressure are generated compared to after ingestion, so PNCC is particularly effective as a feature amount for predicting whether BS is included. I found out.

[実施例2]
本実施例では、実施例1において特に有効と判明したPNCCを特徴量として用いて、実施例1と同様に予測アルゴリズムを学習し、学習済み予測アルゴリズムによる音響データに腸蠕動音(BS)が含まれているかの予測、および、抽出した音響データに基づく腸運動性の評価が可能であるかを検証した。
[Example 2]
In this embodiment, the PNCC, which was found to be particularly effective in Example 1, is used as a feature quantity to learn a prediction algorithm in the same manner as in Example 1, and intestinal peristaltic sounds (BS) are included in the acoustic data obtained by the learned prediction algorithm. It was verified whether it is possible to predict whether or not the bowel motility is present and to evaluate gut motility based on the extracted acoustic data.

音響データにBSが含まれているかの予測精度を評価するにあたって、実施例1では、ランダムサンプリングによる評価を行ったが、本実施例では、leave one out 交差検証による評価を行った。具体的には、20名の被験者ごとにleave one out 交差検証を50回繰り返し、被験者ごとに最も精度が高くなった分類精度の平均値を計算した。その結果を表4に示す。 In order to evaluate the prediction accuracy of whether or not BS is included in the acoustic data, in Example 1, evaluation was performed by random sampling, but in this example, evaluation was performed by leave-one-out cross-validation. Specifically, the leave-one-out cross-validation was repeated 50 times for each of the 20 subjects, and the average classification accuracy with the highest accuracy was calculated for each subject. Table 4 shows the results.

Figure 0007197922000012
Figure 0007197922000012

さらに、予測アルゴリズムによって抽出したBSセグメントに基づいて、被験者の腸運動性の評価を行った。具体的には、BSセグメントから、腸運動性を評価するための指標として、一分間あたりのBSの発生数、SNR、BSの長さ、およびBSの発生間隔を検出し、炭酸水摂取前後における腸運動性の違いを捉えた。一分間あたりのBSの発生数、およびSNRを表5に示し、BSの長さ、およびBSの発生間隔を表6に示す。 In addition, the subject's intestinal motility was assessed based on the BS segment extracted by the predictive algorithm. Specifically, from the BS segment, the number of BS occurrences per minute, SNR, BS length, and BS occurrence interval were detected as indices for evaluating intestinal motility. We captured differences in intestinal motility. Table 5 shows the number of BS occurrences per minute and SNR, and Table 6 shows the BS length and BS occurrence interval.

Figure 0007197922000013
Figure 0007197922000013
Figure 0007197922000014
Figure 0007197922000014

表5および表6より、SNRの基準値を0dBまで低下させても、炭酸水摂取前後における腸運動性の違いを捉えることができることが分かった。この結果は、BSセグメントの抽出精度に関係していることに注意されたい。以上のことから、SNRの基準値が0dBまで変化する場合であれば、一分間あたりのBSの発生数(一分間あたりのBSセグメントの数)、SNR、BSの発生間隔は、基準値の変化に影響を受けない指標であると示唆された。 From Tables 5 and 6, it was found that the difference in intestinal motility before and after ingestion of carbonated water can be captured even when the reference value of SNR is lowered to 0 dB. Note that this result is related to the BS segment extraction accuracy. From the above, if the SNR reference value changes to 0 dB, the number of BS occurrences per minute (the number of BS segments per minute), the SNR, and the BS occurrence interval are It was suggested that it is an indicator that is not affected by

なお、被験者が炭酸水を摂取すると、腸管の運動性が強く亢進することが知られている。よって、本発明に係る予測アルゴリズムは、健常者に比べ腸運動性が強く亢進していると考えられる腸疾患等の評価、モニタリングに有用であることが示唆された。 In addition, it is known that when a subject ingests carbonated water, intestinal motility is strongly enhanced. Therefore, it was suggested that the prediction algorithm according to the present invention is useful for evaluation and monitoring of intestinal diseases, etc., in which intestinal motility is considered to be strongly enhanced compared to healthy subjects.

[実施例3]
本実施例では、PNCCを特徴量として用いて予測アルゴリズムを学習し、学習済み予測アルゴリズムによる音響データに腸蠕動音(BS)が含まれているかの予測、および、抽出した音響データに基づく腸運動性の評価、特に、過敏性腸症候群(IBS)の識別が可能であるかを確認した。
[Example 3]
In the present embodiment, a prediction algorithm is learned using PNCC as a feature amount, prediction is made as to whether or not intestinal peristaltic sound (BS) is included in acoustic data by the learned prediction algorithm, and intestinal movement based on the extracted acoustic data. It was confirmed that sex assessment, in particular discrimination of irritable bowel syndrome (IBS), is possible.

まず、事前検証として、IBSおよび非IBSの48名の被験者から取得した音響データから腸蠕動音(BS)が含まれているBSセグメントを手動で抽出し、BSセグメントを解析することにより、IBSおよび非IBSを識別するための指標を調査した。 First, as a preliminary verification, BS segments containing intestinal peristaltic sounds (BS) were manually extracted from the acoustic data acquired from 48 IBS and non-IBS subjects, and the BS segments were analyzed to obtain IBS and Indices for identifying non-IBS were investigated.

具体的には、研究内容に同意が得られた男性被験者48名(IBS:23名(年齢:22.2±1.43、BMI:22.1±3.39)、非IBS:25名(年齢:22.7±3.32、BMI:21.6±3.69))に対して炭酸水負荷試験(STT)を行った。被験者は、RomeIII診断基準をもとに、IBSか非IBSかに分類された。STTの内容は、実施例1と同様であり、被験者には前日の12時間以上の絶食後に炭酸水を摂取してもらい、当日の午前中において、炭酸水摂取前の10分間の安静時、炭酸水摂取後15分間の安静時にSTTを行った。ただし、実験当日に腹痛や腹部不快感を訴えた被験者は除いた。集音装置として、非接触マイクロフォン(RODE社製 NT55)、電子聴診器(Cardionics社製 E-Scope2(48名)、オーディオインターフェイス(ZOOM社製 R16(34名)、R24(14名))を用いて録音を行った。音響データは、サンプリング周波数:44100Hz、ディジタル分解能:16bitで同時に記録された。実験中の被験者の体位は仰臥位であり、電子聴診器を臍から右9cmの位置に配置し、非接触マイクロフォンを臍から上方に20cmの位置に配置した。音響データは、一般的に知られている腸蠕動音(BS)の周波数特性を考慮して、4000Hzへのダウンサンプリング処理を行った。 Specifically, 48 male subjects (IBS: 23 (age: 22.2 ± 1.43, BMI: 22.1 ± 3.39), non-IBS: 25 ( Age: 22.7±3.32, BMI: 21.6±3.69)) was subjected to a carbonated water tolerance test (STT). Subjects were classified as IBS or non-IBS based on Rome III diagnostic criteria. The content of the STT was the same as in Example 1, and the subjects were asked to ingest carbonated water after fasting for 12 hours or more on the previous day. STT was performed at rest for 15 minutes after water intake. However, subjects who complained of abdominal pain or discomfort on the day of the experiment were excluded. A non-contact microphone (NT55 manufactured by RODE), an electronic stethoscope (E-Scope2 manufactured by Cardionics (48 people), and an audio interface (R16 (34 people) and R24 (14 people) manufactured by ZOOM) were used as sound collectors. Acoustic data was simultaneously recorded at a sampling frequency of 44100 Hz and a digital resolution of 16 bits.During the experiment, the subject was in the supine position, and an electronic stethoscope was placed 9 cm to the right of the navel. , A non-contact microphone was placed 20 cm above the navel, and the acoustic data was down-sampled to 4000 Hz in consideration of the frequency characteristics of the generally known intestinal peristaltic sound (BS). .

非接触マイクロフォンの音響データから手動でBSセグメントを抽出する作業では、電子聴診器の録音データから得られたARMAスペクトルピークの帯域幅を参考にして、BSの検出を行なった。これにより、BSが発生している時間が分かるため、それを参考にして、音声再生ソフトウェア上で、両録音データを視聴して、聴感評価を行なった。抽出されたBSセグメントをIBS群と非IBS群に分類し、IBS/非IBSを識別するための指標として、一分間あたりのBSの発生数、およびBSの発生間隔の2つの指標をBSから検出し、STTを実施した25分間における5分毎の各指標の平均値を算出した。そして、IBS群と非IBS群との間で、各指標に有意な差があるかをウィルコクソンの符号順位和検定によって検証した。 In the manual extraction of BS segments from non-contact microphone acoustic data, BS detection was performed by referencing the bandwidth of ARMA spectral peaks obtained from electronic stethoscope recordings. As a result, since the time period during which the BS was generated can be known, both recorded data were viewed and listened to on the audio reproduction software, and the auditory evaluation was carried out with reference to this. The extracted BS segments are classified into an IBS group and a non-IBS group, and two indicators, the number of BS occurrences per minute and the BS occurrence interval, are detected from the BS as indices for distinguishing IBS/non-IBS. Then, the average value of each index was calculated every 5 minutes for 25 minutes during which the STT was performed. Wilcoxon's signed rank sum test was then used to verify whether there was a significant difference in each index between the IBS group and the non-IBS group.

図9(a)および(b)は、事前検証において算出された2つの指標の時間推移を示している。0~10分は炭酸水摂取前であり、10~25分は炭酸水摂取後である。図9から、20~25分(炭酸水摂取後10~15分)の区間における一分間あたりのBS発生数およびBS発生間隔において、IBS群と非IBS群との間で有意差があるという傾向が確認された。なお、電子聴診器の録音データに対して、ARMAに基づくアプローチを用いて推定した、一分間あたりのBS発生数を計算した場合では、IBS群と非IBS群との間で有意な違いが見られなかった。この結果は、電子聴診器録音に含まれるBSの中でも、特徴的なBSを獲得できる非接触マイクロフォン録音の顕著な有用性を強調する。 FIGS. 9A and 9B show time transitions of two indices calculated in the preliminary verification. 0 to 10 minutes before ingestion of carbonated water, and 10 to 25 minutes after ingestion of carbonated water. From FIG. 9, there is a trend that there is a significant difference between the IBS group and the non-IBS group in the number of BS occurrences per minute and the BS occurrence interval in the interval of 20-25 minutes (10-15 minutes after ingestion of carbonated water). was confirmed. When the ARMA-based approach was used to estimate the number of BS occurrences per minute for electronic stethoscope recording data, a significant difference was found between the IBS group and the non-IBS group. I couldn't. This result emphasizes the remarkable utility of non-contact microphone recordings that can acquire characteristic BS among BS included in electronic stethoscope recordings.

続いて、本実施例では、事前検証における被験者の中から同一のオーディオインターフェース(R16)を用いて録音された音響データをピックし、予測アルゴリズムによって、音響データからBSセグメントを抽出した。そして、抽出したBSセグメントに基づき、被験者がIBSであるか否かを識別し、その精度を検証した。予測アルゴリズムは、PNCCを特徴量として用いたANNによる機械学習によって作成した。ANNの入力層、中間層および出力層のユニット数は、それぞれ8~28、40、1であった。また、教師データの作成におけるSTE法によるセグメント検出では、SNRの基準値を0dBとした。 Subsequently, in this example, acoustic data recorded using the same audio interface (R16) was picked from among the subjects in the preliminary verification, and BS segments were extracted from the acoustic data by a prediction algorithm. Then, based on the extracted BS segment, whether or not the subject had IBS was identified, and its accuracy was verified. The prediction algorithm was created by machine learning by ANN using PNCC as a feature amount. The number of units in the input layer, hidden layer and output layer of ANN was 8-28, 40 and 1, respectively. Also, in the segment detection by the STE method in creating the teacher data, the SNR reference value was set to 0 dB.

具体的には、研究内容に同意が得られた男性被験者34名(IBS:18名(年齢:23.1±3.84、BMI:21.9±4.07)、非IBS:16名(年齢:22.3±1.69、BMI:23.1±3.61))に対して、事前検証と同様のSTTを行い、事前検証と同様の方法によって、被験者から音響データを取得した。まず、音響データは、そして、取得した音響データは、サブセグメント:256、オーバーラップ:128で分割されたデータに対してSTE法を使用し、SNRが0dB以上のセグメントを検出し、予測アルゴリズムによってBSセグメントを抽出出来るか検討を行った。本実施例では、各セグメントは、フレームサイズ:200、オーバーラップ:100で分割され、フレーム毎に20次元のPNCC、20次元のMFCCが計算された。その後、各セグメントにおける20次元のMFCCの平均値、20次元のPNCCの平均値と20次元のPNCCの標準偏差、本実施例の特徴量:BSF1、BSF2、BSF3およびBSF4の各標準偏差、各平均値を計算した。また、ANNの入力層、中間層および出力層のユニット数は上述した通り(それぞれ8~28、40、1)であり、抽出性能の評価は、leave one out 交差検証によって行った。その評価結果を表7に示す。 Specifically, 34 male subjects (IBS: 18 (age: 23.1 ± 3.84, BMI: 21.9 ± 4.07), non-IBS: 16 ( Age: 22.3±1.69, BMI: 23.1±3.61)), STT was performed in the same manner as in the preliminary verification, and acoustic data was obtained from the subject by the same method as in the preliminary verification. First, the acoustic data and the acquired acoustic data are divided into subsegments: 256 and overlap: 128. Using the STE method, segments with an SNR of 0 dB or more are detected, and a prediction algorithm is used to We examined whether the BS segment could be extracted. In this embodiment, each segment is divided by frame size: 200, overlap: 100, and 20-dimensional PNCC and 20-dimensional MFCC are calculated for each frame. After that, the average value of 20-dimensional MFCC in each segment, the average value of 20-dimensional PNCC and the standard deviation of 20-dimensional PNCC, the feature amount of this embodiment: each standard deviation of BSF1, BSF2, BSF3 and BSF4, each average calculated the value. The number of units in the input layer, intermediate layer and output layer of the ANN is as described above (8 to 28, 40 and 1, respectively), and the extraction performance was evaluated by leave one out cross-validation. Table 7 shows the evaluation results.

Figure 0007197922000015
Figure 0007197922000015

このように、拡大されたサウンドデータベース(20名から34名)を使用することにより、PNCCの平均値(20次元)を使用する場合、およびMFCCの平均値(20次元)を使用する場合よりも格段に高いBS検出性能が得られることが明らかになった。このことから、本実施例のようにサンプリングレートが低い場合でも、BSの検出においては、MFCCよりPNCCが有効であることが確認された。また、本実施例の特徴量:BSF1、BSF2、BSF3およびBSF4の統計量(トータル:8次元)の特徴量を使用するだけで、PNCCの平均値(20次元)を使用する場合よりも高いBS検出性能を得ることができることが確認された。これは、明らかに、これら4つの特徴量がBS検出に有効であることを示していると考えられる。さらに、PNCCの統計量(標準偏差)とBSF1、BSF2、BSF3およびBSF4の統計量を組み合わせることにより、性能が改善されることが明らかとなった。 Thus, by using the expanded sound database (20 to 34 names), we found that using the PNCC average (20 dimensions) and using the MFCC average (20 dimensions) It became clear that remarkably high BS detection performance can be obtained. From this, it was confirmed that PNCC is more effective than MFCC in detecting BS even when the sampling rate is low as in this embodiment. In addition, the feature amount of the present embodiment: BSF1, BSF2, BSF3 and BSF4 statistics (total: 8 dimensions) only by using the feature amount, BS higher than when using the average value of PNCC (20 dimensions) It was confirmed that detection performance can be obtained. This clearly indicates that these four feature quantities are effective for BS detection. Furthermore, it was found that combining the PNCC statistic (standard deviation) with the BSF1, BSF2, BSF3 and BSF4 statistics improved the performance.

事前検証では、例として、STTの20~25分(炭酸水摂取後10~15分)の区間における一分間あたりのBS発生数およびBS発生間隔において、IBS群と非IBS群との間で有意差があるという傾向が確認された。これに対し、PNCCの標準偏差とBSF1、BSF2、BSF3、BSF4の統計量(平均値と標準偏差)とを組み合わせた予測アルゴリズムによって抽出されたBSセグメントについても同様の傾向があるか確認するため、STTの20~25分(炭酸水摂取後10~15分)の区間における一分間あたりのBSセグメント数を推定した。その結果を表8に示す。 In preliminary verification, for example, the number of BS occurrences per minute and the BS occurrence interval in the 20-25 minute interval of STT (10-15 minutes after ingestion of carbonated water) were significant between the IBS group and the non-IBS group. A difference was observed. On the other hand, in order to confirm whether the BS segment extracted by the prediction algorithm that combines the standard deviation of PNCC and the statistics (mean value and standard deviation) of BSF1, BSF2, BSF3, and BSF4 has the same tendency, We estimated the number of BS segments per minute in the 20-25 min interval of the STT (10-15 min after carbonated water ingestion). Table 8 shows the results.

Figure 0007197922000016
Figure 0007197922000016

表7および表8に示す結果から、予測アルゴリズムを用いることにより、炭酸水摂取後、平均88.6%の感度でBSセグメントを抽出できることが分かった。そして、抽出されたBSセグメントに基づき、IBSおよび非IBSそれぞれの炭酸水摂取後10~15分の区間における、一分間あたりのBSセグメント数を計算した結果、IBS群と非IBS群との間に有意な差が認められた。以上のことから、手動で抽出したBSセグメントと同様に、予測アルゴリズムを用いて抽出したBSセグメントであっても、IBSと非IBSとの識別が可能であることが分かった。なお、BSF1、BSF2、BSF3、BSF4の統計量(平均値と標準偏差)のみを用いた場合でも、一分間あたりのBSセグメント数を基にして、IBSと非IBSとの間に有意な違い(P<0.05)が見られたことに注意されたい。 The results shown in Tables 7 and 8 show that the predictive algorithm can be used to extract the BS segment with an average sensitivity of 88.6% after ingestion of carbonated water. Then, based on the extracted BS segments, the number of BS segments per minute in the interval of 10 to 15 minutes after ingestion of carbonated water for each of the IBS and non-IBS groups was calculated. A significant difference was observed. From the above, it was found that even in the case of BS segments extracted using a prediction algorithm, IBS and non-IBS can be distinguished in the same way as in manually extracted BS segments. It should be noted that even when only the statistics (mean and standard deviation) of BSF1, BSF2, BSF3, and BSF4 were used, there was a significant difference between IBS and non-IBS based on the number of BS segments per minute ( Note that P<0.05) was found.

なお、聴診器と非接触マイクロフォンを同時録音できるセンサでは、BSは同期して獲得される。今回の環境より雑音の多い状況下において、非接触マイクロフォンの録音データからBSセグメントを検出する場合、聴診器の録音データから、推定されたBSを参照することにより、非接触マイクロフォン録音からBSを検出する性能を改良することができる。 It should be noted that BS is acquired synchronously in a sensor capable of simultaneous recording of a stethoscope and a non-contact microphone. When detecting BS segments from non-contact microphone recordings under conditions that are noisier than this environment, BS is detected from non-contact microphone recordings by referring to the estimated BS from the stethoscope recording data. performance can be improved.

[実施例4]
本実施例では、非接触マイクロフォンを用いて、5名の被験者から録音された、(i)炭酸水摂取後の5分間の録音データ、(ii)コーヒー摂取後の5分間の録音データからマニュアルラベリングによりBSを抽出し、BSの種類について、次の5つのパターンP1~P5に分類を行った。
P1:約50ms程度以下の極めて短いBS(例、気泡が破裂したような音)。
P2:液体の移動に伴い発生するような、ゴロゴロゴロ、ギュルギュルギュルのようなBSであり、一般的に、スペクトログラム上、大きな変化が見られない。
P3:ギュル、ゴロ、グル、グゥのような音であり、P2に類似しており、P2より、BS長が短い傾向にある。
P4:グー、ギュー、クーのような音であり、単純いびき症のいびき音に類似したスペクトル構造が見られる。
P5:P4に類似した音が時間と共に比較的大きく変化するパターンであり、例えば、時間と共に高周波へシフトするパターンが挙げられ、スペクトログラムの形状が時間とともに明らかに変化するパターンである。
[Example 4]
In this example, using a non-contact microphone, recorded from 5 subjects, (i) 5 minutes of recording data after ingestion of carbonated water, (ii) 5 minutes of recording data after ingestion of coffee Manual labeling BS was extracted by the method, and the types of BS were classified into the following five patterns P1 to P5.
P1: Extremely short BS of about 50 ms or less (eg, sound like bursting bubbles).
P2: Rumbling and gurgling BS that occurs with the movement of liquid, and generally no significant change is observed on the spectrogram.
P3: Sounds such as guru, goro, guru, guu, which are similar to P2 and tend to have a shorter BS length than P2.
P4: The sound is like goo, gyu, coo, and has a spectral structure similar to the snoring sound of simple snoring.
P5: A pattern in which a sound similar to P4 changes relatively greatly with time, for example, a pattern that shifts to higher frequencies with time, and a pattern in which the shape of the spectrogram clearly changes with time.

なお、具体的な分類方法については、Dimoulas, C., Kalliris, G., Papanikolaou, G., Petridis, V., & Kalampakas, A. (2008). Bowel-sound pattern analysis using wavelets and neural networks with application to long-term, unsupervised, gastrointestinal motility monitoring. Expert Systems with Applications, 34(1), 26-41.を参照されたい。 For specific classification methods, see Dimoulas, C., Kalliris, G., Papanikolaou, G., Petridis, V., & Kalampakas, A. (2008). Bowel-sound pattern analysis using wavelets and neural networks with application to long-term, unsupervised, gastrointestinal motility monitoring. See Expert Systems with Applications, 34(1), 26-41.

図10に、(a)炭酸水摂取後のBSパターンの発生頻度、(b)コーヒー摂取後のBSパターンの発生頻度を示す。この図から、両群間において、BSパターンの発生頻度の違いが確認された。コーヒー摂取後では、炭酸水摂取後に比べ、BSのパターンP1が明らかに多く見られることが確認された。逆に、炭酸水摂取後では、特に、パターンP2、P4の発生頻度が増加していることが確認された。これらの結果は明らかに、飲料水の成分の違いによる腸管内の状態の違いを表現していると思われる。これにより、BSパターンに基づいて、腸疾患の有無の評価が可能であることが示唆される。 FIG. 10 shows (a) the frequency of occurrence of BS patterns after ingestion of carbonated water and (b) the frequency of occurrence of BS patterns after ingestion of coffee. From this figure, it was confirmed that there was a difference in the frequency of occurrence of BS patterns between the two groups. It was confirmed that the BS pattern P1 was clearly seen more frequently after ingestion of coffee than after ingestion of carbonated water. Conversely, it was confirmed that the frequencies of occurrence of patterns P2 and P4 in particular increased after ingestion of carbonated water. These results clearly indicate the difference in the intestinal conditions due to the difference in the components of the drinking water. This suggests that the presence or absence of intestinal disease can be evaluated based on the BS pattern.

[実施例5]
本実施例では、非接触マイクロフォンを用いて、5名の被験者から録音された、(i)炭酸水摂取後の5分間の録音データ、(ii)コーヒー摂取後の5分間の録音データからマニュアルラベリングによりBSを抽出して作成されたデータベースからBSパターンの自動分類を行った。なお、上述したパターンP1は50ms程度以下の短い音であり、BSセグメントの長さの情報だけで十分識別可能であるため、本実施例では除外されている。腸管が蠕動運動を行う際、空気や内容物(液体等)が腸管内を移動するときにBSが発生することが知られているため、本実施例では、パターンP2、P3を液体優位なBSパターンとしてまとめ、教師信号PA1:(0、1)を与えている。同様にパターンP4、P5を空気優位なBSパターンとしてまとめ、教師信号PA2:(1、0)を与えている。
[Example 5]
In this example, using a non-contact microphone, recorded from 5 subjects, (i) 5 minutes of recording data after ingestion of carbonated water, (ii) 5 minutes of recording data after ingestion of coffee Manual labeling Automatic classification of BS patterns was performed from a database created by extracting BSs. Note that the pattern P1 described above is a short sound of about 50 ms or less, and is excluded in this embodiment because it can be sufficiently identified only by information on the length of the BS segment. When the intestinal tract performs peristalsis, it is known that BS occurs when air and contents (liquid, etc.) move in the intestinal tract. They are put together as a pattern, and a teacher signal PA1: (0, 1) is given. Similarly, patterns P4 and P5 are put together as an air-dominant BS pattern, and a teacher signal PA2: (1, 0) is given.

これらのBSパターンの自動分類には、下記の特徴量1~3を使用した。
特徴量1:BSF5
特徴量2(本実施例の特徴量):BSF1、BSF2、BSF3、BSF4の統計量(平均値と標準偏差)
特徴量3:特徴量2+BSF5
The following feature quantities 1 to 3 were used for automatic classification of these BS patterns.
Feature 1: BSF5
Feature quantity 2 (feature quantity of this embodiment): statistics of BSF1, BSF2, BSF3, and BSF4 (mean value and standard deviation)
Feature 3: Feature 2 + BSF5

自動分類アルゴリズムの学習では、入力層、中間層および出力層のユニット数がそれぞれ1~9、30および2のANNを用いた。スケーリング共役勾配法アルゴリズムによりANNを学習し、中間層ユニットの出力関数は双曲線正接関数であり、出力層ユニットの伝達関数は線形関数であった。データベースは、学習用データ:評価用データ=3:2に分割して、平均2乗誤差を基に分類アルゴリズムの性能評価を行った。その結果を表9に示す。表9には、300回の試行の後、最小の平均二乗誤差が代表値として表現されている。 In training the automatic classification algorithm, ANNs with the number of units in the input layer, hidden layer, and output layer of 1 to 9, 30, and 2, respectively, were used. The ANN was trained by the scaling conjugate gradient method algorithm, the output function of the hidden layer unit was the hyperbolic tangent function, and the transfer function of the output layer unit was the linear function. The database was divided into training data:evaluation data=3:2, and the performance of the classification algorithm was evaluated based on the mean squared error. Table 9 shows the results. Table 9 expresses the minimum mean squared error as a representative value after 300 trials.

Figure 0007197922000017
Figure 0007197922000017

BSF5を使用した場合(特徴量1)、本実施例の特徴量:BSF1、BSF2、BSF3、BSF4の統計量(平均値と標準偏差)を使用した場合(特徴量2)とでは、分類性能は変わらないことが確認された。しかしながら、これらの特徴量を組み合わせた場合(特徴量3)、格段の分類性能が得られることが示唆された。 When BSF5 is used (feature amount 1), and when the feature amounts of this embodiment: BSF1, BSF2, BSF3, and BSF4 statistics (mean value and standard deviation) are used (feature amount 2), the classification performance is It was confirmed that there was no change. However, it was suggested that when these feature quantities are combined (feature quantity 3), remarkable classification performance can be obtained.

以上のことから、本実施例の特徴量であるBSFは、BS検出だけではなく、BS分類においても大きな貢献を果たすと考えられる。勿論、これらの考え方は、非接触マイクロフォンの録音データだけではなく、聴診器の録音データにも役に立つと考えられる。 From the above, it is considered that the BSF, which is the feature quantity of the present embodiment, greatly contributes not only to BS detection but also to BS classification. Of course, these ideas are useful not only for non-contact microphone recording data, but also for stethoscope recording data.

[実施例6]
本実施例では、従来から、BS検出に使用されてきた(i)ARMAに基づくアプローチから抽出された後述の特徴量:ψ、(ii)本実施例の特徴量:BSF1、BSF2、BSF3、BSF4、および20次元のPNCCを用いて予測アルゴリズムを学習し、学習済み予測アルゴリズムによる腸蠕動音(BS)の抽出性能の比較検討を行った。また、音響データは、ノイズの多い環境下で電子聴診器を用いて取得した。2013年に本発明者らが開発したARMAに基づく腸音検出法は、サブセグメント毎に検出結果を得る必要があった。ここでは、本発明との性能比較を行うために、サブセグメントに対して本発明が適用された。なお、ここで使用するサブセグメント長は、フレーム長と等価である。
[Example 6]
In the present embodiment, (i) feature amounts extracted from an ARMA-based approach that have been conventionally used for BS detection: ψ k , (ii) feature amounts in the present embodiment: BSF1, BSF2, BSF3, A prediction algorithm was learned using BSF4 and 20-dimensional PNCC, and a comparative study was conducted on the extraction performance of intestinal peristaltic sounds (BS) by the learned prediction algorithm. Acoustic data were also acquired using an electronic stethoscope in a noisy environment. The ARMA-based bowel sound detection method developed by the present inventors in 2013 required obtaining detection results for each sub-segment. Here, the invention was applied to the sub-segments in order to make a performance comparison with the invention. Note that the subsegment length used here is equivalent to the frame length.

本実施例では、研究内容に同意が得られた男性被験者10名に対して炭酸水負荷試験(STT)を行った。STTの内容は、実施例1と同様であり、被験者には(i)前日の12時間以上の絶食後、(ii)炭酸水摂取直後、(iii)食後1時間以内、(iv)コーヒー摂取直後に安静状態になってもらい、当日の午前中において、集音装置として、電子聴診器(Cardionics社製 E-Scope2)を用い、被験者ごとに騒音レベルの異なる下記のA~Eの環境下で、1分間録音を行った。(すなわち、1人の被験者からは、4つの状態(iからiv)×5つの録音環境(AからE)=20パターンの録音データが獲得される。)
A:静音下(騒音レベル:約32dB)
B:音読(約56dB)
C:足音(約51dB)
D:テレビ(約55dB)
E:扇風機稼働(約52dB)
なお、これらの騒音レベルは、被験者から、およそ1m程度離れた位置にある騒音計を使用して計測を行った。また、騒音源も被験者からおよそ1m程度離れた位置に配置したことに注意されたい。
In this example, a carbonated water tolerance test (STT) was performed on 10 male subjects who gave their consent to the research contents. The content of the STT was the same as in Example 1, and the subjects were given (i) after fasting for 12 hours or more on the previous day, (ii) immediately after ingesting carbonated water, (iii) within 1 hour after eating, and (iv) immediately after ingesting coffee. In the morning of the day, an electronic stethoscope (E-Scope 2 manufactured by Cardionics) was used as a sound collector, and under the following A to E environments with different noise levels for each subject, Recorded for 1 minute. (That is, from one subject, 4 states (i to iv) x 5 recording environments (A to E) = 20 patterns of recording data are acquired.)
A: Quiet (noise level: about 32 dB)
B: Reading aloud (about 56 dB)
C: Footsteps (about 51 dB)
D: Television (about 55dB)
E: Fan operation (about 52dB)
These noise levels were measured using a sound level meter placed about 1 m away from the subject. Also, note that the noise source was placed at a position about 1 m away from the subject.

続いて、サブセグメントにBSが含まれているかの生体音判定(図3のステップS3)を人間の聴覚評価によって実施例1と同様に行った。 Subsequently, body sound determination (step S3 in FIG. 3) to determine whether the sub-segment includes BS was performed by human auditory evaluation in the same manner as in the first embodiment.

また、各サブセグメントにおいて、ARMAに基づくアプローチを用いて特徴量を抽出した。具体的には、以下の処理を行った。 Also, in each subsegment, features were extracted using an ARMA-based approach. Specifically, the following processes were performed.

まず、音響データは、サブセグメント長:M、オーバーラップ:Sで分割した。分割された信号は、次のように、表現することができる。

Figure 0007197922000018
First, the acoustic data is divided by subsegment length: M and overlap: S. The split signal can be expressed as follows.
Figure 0007197922000018

さらに、分割された信号に対し、最小二乗回帰分析を用いて線形トレンドを除去した。その後、以下の式のように、自己回帰移動平均(ARMA)モデルを用いて、信号をモデリングした。

Figure 0007197922000019
ここで、a、bはARMAの係数であり、w(n)は白色雑音であり、p、qはARMAの次数である。 In addition, linear trends were removed using least-squares regression analysis on the split signals. The signal was then modeled using an autoregressive moving average (ARMA) model as follows:
Figure 0007197922000019
where a, b are the ARMA coefficients, w k (n) is the white noise, and p, q are the ARMA orders.

Prony法によりARMAモデルの係数が算出された後に、ARMAモデルのパワースペクトルを計算した。Prony法は、AR(m)モデルにより得られた、インパルス応答(長さl)をもとにしてARMA係数を設計する方法である。このパワースペクトルは極a、根bを含んだフィルタで雑音分散σをフィルタリングすることにより生成される。さらに、パワースペクトルを計算する前には、スペクトルの振幅推定の向上のため、ARMA係数のDサンプルのゼロパディングを行なった。

Figure 0007197922000020
After the coefficients of the ARMA model were calculated by the Prony method, the power spectrum of the ARMA model was calculated. The Prony method is a method of designing ARMA coefficients based on the impulse response (length l) obtained by the AR(m) model. This power spectrum is generated by filtering the noise variance σ w with a filter containing poles a and roots b. In addition, prior to computing the power spectrum, we zero-padded the D samples of the ARMA coefficients to improve the amplitude estimate of the spectrum.
Figure 0007197922000020

[数9]のパワースペクトルからピークピッキングを行うことにより、ピーク周波数での3dB帯域幅を求めた。

Figure 0007197922000021
A 3 dB bandwidth at the peak frequency was obtained by performing peak picking from the power spectrum of [Formula 9].
Figure 0007197922000021

BW3dbは、ARMAのスペクトルピークにおける3dB帯域幅である。スペクトルに複数のピークが観測された場合は、最も狭い3dB帯域幅が用いられる。BW3dbが計算できない場合は、BW3db=0とされる。ψkは3次のメディアンフィルタにより平滑化されて使用される。BW3 db is the 3 dB bandwidth at the ARMA spectral peak. If multiple peaks are observed in the spectrum, the narrowest 3 dB bandwidth is used. If BW3 db cannot be calculated, then BW3 db =0. ψk is used after being smoothed by a third-order median filter.

また、カットオフ周波数:80Hzを持つ、100次のFIRハイパスフィルタを使用して、音響データをフィルタリングした。ただし、このカットオフ周波数は、フィルタの正規化ゲインが-6dBとなる周波数である。そして、フィルタリングされた信号を、サブセグメント長:M、オーバーラップ:Sで分割した。分割された信号は、次のように、表現することができる。

Figure 0007197922000022
ここで、Nはトータルサブセグメント数であり、s(n)はフィルタ処理された信号である。 The acoustic data were also filtered using a 100th order FIR high-pass filter with a cutoff frequency of 80 Hz. However, this cutoff frequency is the frequency at which the normalized gain of the filter is -6 dB. Then, the filtered signal was divided by subsegment length: M and overlap: S. The split signal can be expressed as follows.
Figure 0007197922000022
where N is the total number of subsegments and s(n) is the filtered signal.

ARMAに基づくアプローチから抽出される特徴量は、ψ(数6)である。特徴量:ψの算出には、M=256、S=128、p=5、q=5、D=1024、m=30、l=4000の各パラメータを使用した。このアプローチとの性能を比較するために、特徴量:BSF1とBSF2およびBSF3、ならびに、20次元のPNCCが使用された。The features extracted from the ARMA-based approach are ψ k (Equation 6). Feature amount: ψ k was calculated using the following parameters: M=256, S=128, p=5, q=5, D=1024, m=30, l=4000. Features: BSF1 and BSF2 and BSF3, and 20-dimensional PNCC were used to compare the performance with this approach.

予測アルゴリズムの学習では、入力層および出力層のユニット数がそれぞれ(i:ψの場合)1、(ii:本実施例の特徴量の場合)24および1であり、中間層のユニット数(H)が40のANNを用いた。教師信号として、学習対象のサブセグメントがBSサブセグメントであれば1、non-BSサブセグメントであれば0を与え、スケーリング共役勾配法アルゴリズムによりANNを学習させ、予測アルゴリズムを作成した。In the learning of the prediction algorithm, the number of units in the input layer and the output layer is 1 (i: ψ k ), 24 and 1 (ii: in the case of the feature value of this embodiment), and the number of units in the intermediate layer ( H) used an ANN of 40. As a teacher signal, 1 is given if the subsegment to be learned is a BS subsegment, and 0 is given if it is a non-BS subsegment.

予測アルゴリズムの予測精度の評価では、leave one out 交差検証を用い、感度、特異度、PPVを計算した。特徴量として、(i)ψを用いた場合と、(ii)発明の特徴量:BSF1,BSF2、BSF3、および20次元のPNCCの場合の結果を表10に示す。ここで、サブセグメンントに対してPNCCを使用するため、フィルタバンクには、メルフィルタバンクを使用し、PNCCのパワーバイアスサブトラクッション処理は実施しなかった。In evaluating the prediction accuracy of prediction algorithms, leave one out cross-validation was used to calculate sensitivity, specificity, and PPV. Table 10 shows the results when (i) ψ k is used as the feature amount and (ii) the feature amount of the invention: BSF1, BSF2, BSF3, and 20-dimensional PNCC. Here, since the PNCC is used for the subsegment, the mel filter bank was used as the filter bank, and the power bias subtracushion processing of the PNCC was not performed.

Figure 0007197922000023
Figure 0007197922000023

この結果から、音響データが雑音の多い環境下で取得された場合であれば、予想通り、ARMAに基づくアプローチのBS検出性能が劣化することが確認された。一方で、特徴量として本実施例の特徴量:BSF1、BSF2、BSF3、および20次元のPNCCを用いて学習された予測アルゴリズムを用いることにより、ARMAに基づくアプローチより遥かに高い検出性能が得られることが確認された。また、10人の被験者の200パターンの録音データからマニュアルラベリングにより抽出された、各録音データに対するBSサブセグメント数と本実施例の予測アルゴリズムより推定された各録音データに対するBSサブセグメント数との相関係数を求めた結果、R=0.9272という高い相関が確認された。ここでは、ARMAに基づくアプローチを使用した場合とBS検出性能を比較するために、サブセグメントに対して本実施例の特徴量が使用された。このような聴診器の録音データの場合でも、セグメント分割して、BSF1、BSF2、BSF3、および20次元のPNCCの統計量を抽出することにより、更なる性能向上が期待される。 The results confirm that the BS detection performance of the ARMA-based approach degrades, as expected, if the acoustic data is acquired in a noisy environment. On the other hand, by using the features of this example as features: BSF1, BSF2, BSF3, and prediction algorithms trained using 20-dimensional PNCCs, much higher detection performance than the ARMA-based approach can be obtained. was confirmed. In addition, the correlation between the number of BS subsegments for each recording data extracted from 200 patterns of recording data of 10 subjects by manual labeling and the number of BS subsegments for each recording data estimated by the prediction algorithm of this embodiment. As a result of calculating the correlation coefficient, a high correlation of R=0.9272 was confirmed. Here, the features of this example were used for the sub-segments to compare BS detection performance with using an ARMA-based approach. Even in the case of stethoscope recording data, further performance improvement is expected by segmenting and extracting BSF1, BSF2, BSF3, and 20-dimensional PNCC statistics.

なお、本技術は、SNRが低下するような環境下でも、BSを検出することを目指して、開発されてきた。上述の各実施例は、極めて小さな音のBSも検出対象としていたことに注意されたい。 Note that this technology has been developed with the aim of detecting BSs even in an environment where the SNR is low. It should be noted that the above-described embodiments were also intended to detect very soft BS.

1 機械学習装置
1’ 機械学習装置
2 解析装置
2’ 解析装置
3 入力装置
4 集音装置
6 表示装置
7 対象者
11 補助記憶装置
12 教師データ作成部
12’ 教師データ作成部
13 学習部
22 音響データ取得部
23 セグメント検出部
24 特徴量抽出部
25 生体音予測部
26 生体音セグメント抽出部
27 状態評価部(第1状態評価部)
28 分類予測部
29 状態評価部(第2状態評価部)
51 補助記憶装置
100 診断支援システム
121 音響データ取得部
122 セグメント検出部
122 生体音判定部
123 生体音判定部
124 特徴量抽出部
125 分類判定部
D1 教師データ
D1’ 教師データ
D2 予測アルゴリズム
D2’ 予測アルゴリズム
1 Machine learning device 1' Machine learning device 2 Analysis device 2' Analysis device 3 Input device 4 Sound collector 6 Display device 7 Subject 11 Auxiliary storage device 12 Teacher data creation unit 12' Teacher data creation unit 13 Learning unit 22 Acoustic data Acquisition unit 23 Segment detection unit 24 Feature amount extraction unit 25 Body sound prediction unit 26 Body sound segment extraction unit 27 State evaluation unit (first state evaluation unit)
28 classification prediction unit 29 state evaluation unit (second state evaluation unit)
51 Auxiliary storage device 100 Diagnosis support system 121 Acoustic data acquisition unit 122 Segment detection unit 122 Body sound determination unit 123 Body sound determination unit 124 Feature amount extraction unit 125 Classification determination unit D1 Teacher data D1' Teacher data D2 Prediction algorithm D2' Prediction algorithm

Claims (15)

音響データに音が含まれているかを予測する予測アルゴリズムを学習する機械学習装置であって、
集音装置によって被験者から得られた音響データを取得する音響データ取得部と、
前記音響データに前記音が含まれるか否かをユーザの操作に応じて判定する生体音判定部と、
前記音響データにおける特徴量を抽出する特徴量抽出部と、
前記生体音判定部の判定結果および前記特徴量に基づいて、前記予測アルゴリズムを学習する学習部と、
を備え、
前記特徴量は、PNCC、MFCC、△PNCC、△△PNCC、△MFCC、△△MFCC、およびLPC係数、ならびに、それらの統計量の少なくともいずれかを含む、機械学習装置。
A machine learning device that learns a prediction algorithm for predicting whether bowel sounds are included in acoustic data,
an acoustic data acquisition unit that acquires acoustic data obtained from a subject by a sound collector;
a body sound determination unit that determines whether or not the bowel sounds are included in the acoustic data according to a user's operation;
a feature quantity extraction unit for extracting a feature quantity in the acoustic data;
a learning unit that learns the prediction algorithm based on the determination result of the body sound determination unit and the feature amount;
with
The machine learning device, wherein the features include at least one of PNCC, MFCC, ΔPNCC, ΔΔPNCC, ΔMFCC, ΔΔMFCC, and LPC coefficients , and statistics thereof.
前記学習部は、人工ニューラルネットワーク(ANN)で構成される、請求項1に記載の機械学習装置。 2. The machine learning device according to claim 1 , wherein said learning unit is composed of an artificial neural network (ANN). 前記集音装置は非接触マイクロフォンである、請求項1または2に記載の機械学習装置。 3. The machine learning device according to claim 1, wherein said sound collecting device is a non-contact microphone. 前記音響データ取得部によって取得された前記音響データから、複数のセグメントを検出するセグメント検出部をさらに備え、
前記生体音判定部は、各セグメントに前記音が含まれるか否かをユーザの操作に応じて判定し、
前記特徴量抽出部は、各セグメントにおける特徴量を抽出し、
前記学習部は、各セグメントにおける前記特徴量および前記生体音判定部による判定結果に基づいて、前記予測アルゴリズムを学習する、請求項1~のいずれかに記載の機械学習装置。
further comprising a segment detection unit that detects a plurality of segments from the acoustic data acquired by the acoustic data acquisition unit;
The body sound determination unit determines whether or not each segment includes the intestinal sound according to a user's operation,
The feature quantity extraction unit extracts a feature quantity in each segment,
4. The machine learning device according to any one of claims 1 to 3 , wherein said learning unit learns said prediction algorithm based on said feature amount in each segment and the result of determination by said body sound determination unit.
前記セグメント検出部は、SNRが所定値以上のセグメントを検出する、請求項に記載の機械学習装置。 5. The machine learning device according to claim 4 , wherein said segment detection unit detects a segment having an SNR equal to or greater than a predetermined value. 前記音響データに前記音が含まれる場合、前記音の種類をユーザの操作に応じて判定する分類判定部をさらに備え、
前記学習部は、さらに前記音の種類に基づいて、前記予測アルゴリズムを学習する、請求項1~のいずれかに記載の機械学習装置。
further comprising a classification determination unit that determines a type of the bowel sound according to a user's operation when the bowel sound is included in the acoustic data,
The machine learning device according to any one of claims 1 to 5 , wherein said learning unit learns said prediction algorithm further based on the type of bowel sound .
集音装置によって対象者から得られた音響データを解析する解析装置であって、
請求項1~のいずれかに記載の機械学習装置によって学習された予測アルゴリズムに従って、前記音響データに音が含まれているかを予測する生体音予測部を備えた、解析装置。
An analysis device for analyzing acoustic data obtained from a subject by a sound collector,
An analysis device comprising a body sound prediction unit that predicts whether the acoustic data includes bowel sounds according to a prediction algorithm learned by the machine learning device according to any one of claims 1 to 6 .
前記生体音予測部の予測結果に基づいて、前記音響データから前記音が含まれているセグメントを抽出する生体音セグメント抽出部と、
前記生体音セグメント抽出部によって抽出された前記セグメントに基づいて、前記対象者の腸運動性を評価する第1状態評価部と、
をさらに備えた、請求項に記載の解析装置。
a body sound segment extraction unit that extracts a segment containing the bowel sound from the acoustic data based on the prediction result of the body sound prediction unit;
a first state evaluation unit that evaluates the intestinal motility of the subject based on the segments extracted by the body sound segment extraction unit;
The analysis device according to claim 7 , further comprising:
前記第1状態評価部は、所定時間あたりの前記腸音の発生数、前記腸音のSNR、前記腸音の長さ、および前記腸音の発生間隔を指標として、前記腸運動性を評価する、請求項8に記載の解析装置。The first condition evaluation unit evaluates the intestinal motility using the number of bowel sounds generated per predetermined time, the SNR of the bowel sounds, the length of the bowel sounds, and the intervals at which the bowel sounds are generated as indices. 9. The analysis device according to claim 8. 前記予測アルゴリズムは、請求項に記載の機械学習装置によって学習された予測アルゴリズムであり、
前記音響データに音が含まれていると予測された場合に、前記予測アルゴリズムに従って、前記音の種類を予測する分類予測部をさらに備えた、請求項のいずれかに記載の解析装置。
The prediction algorithm is a prediction algorithm learned by the machine learning device according to claim 6 ,
10. The method according to any one of claims 7 to 9 , further comprising a classification prediction unit that predicts the type of bowel sounds according to the prediction algorithm when it is predicted that the bowel sounds are included in the acoustic data. analysis equipment.
前記分類予測部によって予測された前記音の種類に基づいて、前記対象者の腸疾患の有無を評価する第2状態評価部をさらに備えた、請求項10に記載の解析装置。 11. The analysis apparatus according to claim 10 , further comprising a second state evaluation unit that evaluates whether the subject has an intestinal disease based on the type of bowel sound predicted by the classification prediction unit. 音響データに音が含まれているかを予測する予測アルゴリズムを学習する機械学習方法であって、
集音装置によって被験者から得られた音響データを取得する音響データ取得ステップと、
前記音響データに前記音が含まれるか否かをユーザの操作に応じて判定する生体音判定ステップと、
前記音響データにおける特徴量を抽出する特徴量抽出ステップと、
前記生体音判定ステップの判定結果および前記特徴量に基づいて、前記予測アルゴリズムを学習する学習ステップと、
を備え、
前記特徴量は、PNCC、MFCC、△PNCC、△△PNCC、△MFCC、△△MFCC、およびLPC係数、ならびに、それらの統計量の少なくともいずれかを含む、機械学習方法。
A machine learning method for learning a prediction algorithm that predicts whether bowel sounds are included in acoustic data, comprising:
an acoustic data acquisition step of acquiring acoustic data obtained from a subject by a sound collector;
a body sound determination step of determining whether or not the bowel sounds are included in the acoustic data according to a user's operation;
a feature quantity extraction step of extracting a feature quantity in the acoustic data;
a learning step of learning the prediction algorithm based on the determination result of the body sound determination step and the feature quantity;
with
The machine learning method, wherein the features include at least one of PNCC, MFCC, ΔPNCC, ΔΔPNCC, ΔMFCC, ΔΔMFCC, and LPC coefficients , and statistics thereof.
集音装置によって対象者から得られた音響データをコンピュータが解析する解析方法であって、
請求項12に記載の機械学習方法によって学習された予測アルゴリズムに従って、前記音響データに腸音が含まれているかを予測する予測ステップを備えた、解析方法。
An analysis method in which a computer analyzes acoustic data obtained from a subject by a sound collector,
An analysis method comprising a prediction step of predicting whether bowel sounds are included in the acoustic data according to a prediction algorithm learned by the machine learning method according to claim 12.
前記予測ステップの予測結果に基づいて、前記音響データから前記音が含まれているセグメントを抽出する生体音セグメント抽出ステップと、
前記生体音セグメント抽出ステップによって抽出された前記セグメントに基づいて、前記対象者の腸運動性を評価する状態評価ステップと、
をさらに備えた、請求項1に記載の解析方法。
a body sound segment extraction step of extracting a segment containing the bowel sound from the acoustic data based on the prediction result of the prediction step;
a state evaluation step of evaluating intestinal motility of the subject based on the segment extracted by the body sound segment extraction step;
The analysis method according to claim 13 , further comprising:
前記状態評価ステップでは、所定時間あたりの前記腸音の発生数、前記腸音のSNR、前記腸音の長さ、および前記腸音の発生間隔を指標として、前記腸運動性を評価する、請求項14に記載の解析方法。In the state evaluation step, the intestinal motility is evaluated using the number of bowel sounds generated per predetermined time, the SNR of the bowel sounds, the length of the bowel sounds, and the interval between bowel sounds as indicators. Item 15. The analysis method according to Item 14.
JP2020518303A 2018-05-08 2019-05-07 Machine learning device, analysis device, machine learning method and analysis method Active JP7197922B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018089850 2018-05-08
JP2018089850 2018-05-08
PCT/JP2019/018287 WO2019216320A1 (en) 2018-05-08 2019-05-07 Machine learning apparatus, analysis apparatus, machine learning method, and analysis method

Publications (3)

Publication Number Publication Date
JPWO2019216320A1 JPWO2019216320A1 (en) 2021-06-17
JPWO2019216320A5 JPWO2019216320A5 (en) 2022-08-04
JP7197922B2 true JP7197922B2 (en) 2022-12-28

Family

ID=68468296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020518303A Active JP7197922B2 (en) 2018-05-08 2019-05-07 Machine learning device, analysis device, machine learning method and analysis method

Country Status (2)

Country Link
JP (1) JP7197922B2 (en)
WO (1) WO2019216320A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111227819B (en) * 2020-02-21 2021-05-07 孙磊 Signal processing method of fetal heart detection sensor matrix of multidimensional channel sensor
TWI749880B (en) * 2020-11-19 2021-12-11 緯創資通股份有限公司 Method for recognizing physiological symptom and physiological symptom sensing system
TW202227017A (en) 2020-12-07 2022-07-16 日商三得利控股股份有限公司 Information processing device, information processing method, and recording medium
CN113796889A (en) * 2021-08-30 2021-12-17 西安交通大学 Auxiliary electronic stethoscope signal discrimination method based on deep learning
WO2023238420A1 (en) * 2022-06-07 2023-12-14 サントリーホールディングス株式会社 Sound recording device, information processing system, sound recording method, and program
WO2023238419A1 (en) * 2022-06-07 2023-12-14 サントリーホールディングス株式会社 Mobile information terminal, information processing system, and control method and program for mobile information terminal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015514456A (en) 2012-03-29 2015-05-21 ザ ユニバーシティ オブ クィーンズランド Method and apparatus for processing patient sounds
WO2017135127A1 (en) 2016-02-01 2017-08-10 国立大学法人徳島大学 Bioacoustic extraction device, bioacoustic analysis device, bioacoustic extraction program, and computer-readable storage medium and stored device
US20170301347A1 (en) 2016-04-13 2017-10-19 Malaspina Labs (Barbados), Inc. Phonotactic-Based Speech Recognition & Re-synthesis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015514456A (en) 2012-03-29 2015-05-21 ザ ユニバーシティ オブ クィーンズランド Method and apparatus for processing patient sounds
WO2017135127A1 (en) 2016-02-01 2017-08-10 国立大学法人徳島大学 Bioacoustic extraction device, bioacoustic analysis device, bioacoustic extraction program, and computer-readable storage medium and stored device
US20170301347A1 (en) 2016-04-13 2017-10-19 Malaspina Labs (Barbados), Inc. Phonotactic-Based Speech Recognition & Re-synthesis

Also Published As

Publication number Publication date
WO2019216320A1 (en) 2019-11-14
JPWO2019216320A1 (en) 2021-06-17

Similar Documents

Publication Publication Date Title
JP7197922B2 (en) Machine learning device, analysis device, machine learning method and analysis method
Azarbarzin et al. Automatic and unsupervised snore sound extraction from respiratory sound signals
CN108670200B (en) Sleep snore classification detection method and system based on deep learning
Amrulloh et al. Automatic cough segmentation from non-contact sound recordings in pediatric wards
JP6435257B2 (en) Method and apparatus for processing patient sounds
Matos et al. Detection of cough signals in continuous audio recordings using hidden Markov models
US11712198B2 (en) Estimation of sleep quality parameters from whole night audio analysis
Almazaydeh et al. Apnea detection based on respiratory signal classification
US20120004749A1 (en) Multi-parametric analysis of snore sounds for the community screening of sleep apnea with non-gaussianity index
Shuzo et al. Wearable eating habit sensing system using internal body sound
Emoto et al. Detection of sleep breathing sound based on artificial neural network analysis
Nabi et al. Identification of asthma severity levels through wheeze sound characterization and classification using integrated power features
Arsenali et al. Recurrent neural network for classification of snoring and non-snoring sound events
Datta et al. Automated lung sound analysis for detecting pulmonary abnormalities
Shen et al. Detection of snore from OSAHS patients based on deep learning
JP2021517005A (en) Methods and systems for indicating possible gastrointestinal conditions
Markandeya et al. Smart phone based snoring sound analysis to identify upper airway obstructions
JPWO2017135127A1 (en) Bioacoustic extraction apparatus, bioacoustic analysis apparatus, bioacoustic extraction program, computer-readable recording medium, and recorded apparatus
Porieva et al. Investigation of lung sounds features for detection of bronchitis and COPD using machine learning methods
Shi et al. Obstructive sleep apnea detection using difference in feature and modified minimum distance classifier
Sofwan et al. Normal and Murmur Heart Sound Classification Using Linear Predictive Coding and k-Nearest Neighbor Methods
Rahman et al. Efficient online cough detection with a minimal feature set using smartphones for automated assessment of pulmonary patients
Dafna et al. Automatic detection of snoring events using Gaussian mixture models
Hariharan et al. Identification of vocal fold pathology based on mel frequency band energy coefficients and singular value decomposition
Roquemen-Echeverri et al. An AI-Powered Tool for Automatic Heart Sound Quality Assessment and Segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221209

R150 Certificate of patent or registration of utility model

Ref document number: 7197922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150